ArcMemo

by UC Berkeley / Stanford (Ho et al.)

System Card

OrganizationUC Berkeley / Stanford (Ho et al.)

Released2025-09

Architectureepisodic-buffer / Concept-level (not instance) abstract memory

DetailsStores reusable, modular natural-language concepts distilled from solution traces. Concepts are retrieved and integrated into prompts for future queries, enabling test-time continual learning without weight updates.

Parameters—

Domainlifelong-learningagent-memory

Open SourceYes

PaperView Paper

CodeRepository

arc-agiconcept-memorytest-timeabstract-reasoning

Capability Profile

Benchmark Scores

6 of 14 benchmarks

Long-Context Retrieval

0/5

RULER

no data

NIAH

no data

LooGLE

no data

LongBench

no data

∞Bench

no data

Multi-Turn Recall

2/2

LoCoMo

75.552p

MemoryBank

82.790p

Cross-Session Memory

1/1

LongMemEval

85.195p

Multi-Hop QA

2/3

BABILong

7768p

MultiHop-RAG

no data

HotpotQA

74.868p

Agent Task Memory

1/1

AgentBench-Mem

7226p

Personalization

0/1

PerLTQA

no data

Factuality / Grounding

0/1

RAGAS

no data

Sources:ArcMemo paper (arXiv:2509.04439); evaluated on LoCoMo: Long-Term Conversational Memory Benchmark (Snap Research, 2402)ArcMemo paper (arXiv:2509.04439); evaluated on LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Salesforce AI Research, 2410)ArcMemo paper (arXiv:2509.04439); evaluated on AgentBench Memory Track (Tsinghua KEG, 2308)ArcMemo paper (arXiv:2509.04439); evaluated on BABILong: Testing the Limits of LLMs with Long-Context Reasoning-in-a-Haystack (AIRI, 2406)ArcMemo paper (arXiv:2509.04439); evaluated on HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering (Stanford / CMU, 1809)ArcMemo paper (arXiv:2509.04439); evaluated on MemoryBank: Enhancing LLMs with Long-Term Memory (Sun Yat-sen University, 2305)