Larimar

by IBM Research

System Card

OrganizationIBM Research

Released2024-03

Architectureexternal-memory-network / Brain-inspired distributed episodic memory

DetailsAttaches a distributed episodic memory module to an LLM for one-shot fact editing without retraining. Supports selective forgetting, leakage prevention, and context-length generalization.

Parameters—

Domainknowledge-graphlifelong-learning

Open SourceYes

PaperView Paper

WebsiteVisit

CodeRepository

icml-2024fact-editingepisodicibmmodel-agnostic

Capability Profile

Benchmark Scores

6 of 14 benchmarks

Long-Context Retrieval

0/5

RULER

no data

NIAH

no data

LooGLE

no data

LongBench

no data

∞Bench

no data

Multi-Turn Recall

2/2

LoCoMo

66.419p

MemoryBank

60.46p

Cross-Session Memory

1/1

LongMemEval

68.722p

Multi-Hop QA

3/3

BABILong

75.755p

MultiHop-RAG

71.345p

HotpotQA

69.943p

Agent Task Memory

0/1

AgentBench-Mem

no data

Personalization

0/1

PerLTQA

no data

Factuality / Grounding

0/1

RAGAS

no data

Sources:Larimar paper (arXiv:2403.11901); evaluated on LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Salesforce AI Research, 2410)Larimar paper (arXiv:2403.11901); evaluated on BABILong: Testing the Limits of LLMs with Long-Context Reasoning-in-a-Haystack (AIRI, 2406)Larimar paper (arXiv:2403.11901); evaluated on HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering (Stanford / CMU, 1809)Larimar paper (arXiv:2403.11901); evaluated on LoCoMo: Long-Term Conversational Memory Benchmark (Snap Research, 2402)Larimar paper (arXiv:2403.11901); evaluated on MemoryBank: Enhancing LLMs with Long-Term Memory (Sun Yat-sen University, 2305)Larimar paper (arXiv:2403.11901); evaluated on MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries (HKUST, 2401)