EM-LLM

by em-llm (academic consortium)

System Card

Organizationem-llm (academic consortium)

Released2024-10

Architectureexternal-memory-network / Episodic segmentation via Bayesian surprise

DetailsIncorporates human episodic memory into LLMs with no fine-tuning. Token sequences are segmented into episodic events via Bayesian surprise + graph-theoretic boundary refinement. Dual-stage retrieval combines similarity and temporal contiguity.

Parameters—

Domainlong-contextepisodic-session

Open SourceYes

PaperView Paper

episodicbayesian-surprisecognitiveiclr-2025no-finetune

Capability Profile

Benchmark Scores

6 of 14 benchmarks

Long-Context Retrieval

2/5

RULER

no data

NIAH

no data

LooGLE

no data

51.32p

96.797p

Multi-Turn Recall

1/2

71.627p

MemoryBank

no data

Cross-Session Memory

1/1

64.219p

Multi-Hop QA

1/3

78.883p

MultiHop-RAG

no data

HotpotQA

no data

Agent Task Memory

1/1

59.12p

Personalization

0/1

PerLTQA

no data

Factuality / Grounding

0/1

RAGAS

no data

Sources:arXiv:2407.09450 Table 1 — EM-LLM (SM) on LLaMA 3.1-8B; avg of SQA 41.2 MQA 41.3 Sum 29.2 FSL 69.1 Ret 98.5 Code 64.1 arXiv:2407.09450 Table 1 — EM-LLM (SM) on LLaMA 3.1-8B; avg of R.KV 90.2, R.PassKey 100, R.Number 100 EM-LLM paper (forum?id=BI2int5SAC); evaluated on AgentBench Memory Track (Tsinghua KEG, 2308)EM-LLM paper (forum?id=BI2int5SAC); evaluated on BABILong: Testing the Limits of LLMs with Long-Context Reasoning-in-a-Haystack (AIRI, 2406)EM-LLM paper (forum?id=BI2int5SAC); evaluated on LoCoMo: Long-Term Conversational Memory Benchmark (Snap Research, 2402)EM-LLM paper (forum?id=BI2int5SAC); evaluated on LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Salesforce AI Research, 2410)