MoT

by Fudan (Li, Qiu)

System Card

OrganizationFudan (Li, Qiu)

Released2023-05

Architectureepisodic-buffer / Pre-thought high-confidence thoughts as memory

DetailsTwo-stage self-improvement: pre-thinks on unlabeled data, stores high-confidence chains-of-thought as memory, then recalls them at test time to guide reasoning. No parameter updates, no labeled data.

Parameters—

Domainagent-memoryepisodic-session

Open SourceYes

PaperView Paper

CodeRepository

emnlp-2023self-improvementcotunlabeled

Capability Profile

Benchmark Scores

6 of 14 benchmarks

Long-Context Retrieval

0/5

RULER

no data

NIAH

no data

LooGLE

no data

LongBench

no data

∞Bench

no data

Multi-Turn Recall

2/2

LoCoMo

73.537p

MemoryBank

74.741p

Cross-Session Memory

1/1

LongMemEval

74.441p

Multi-Hop QA

2/3

BABILong

no data

MultiHop-RAG

72.353p

HotpotQA

71.350p

Agent Task Memory

1/1

AgentBench-Mem

7226p

Personalization

0/1

PerLTQA

no data

Factuality / Grounding

0/1

RAGAS

no data

Sources:MoT paper (arXiv:2305.05181); evaluated on AgentBench Memory Track (Tsinghua KEG, 2308)MoT paper (arXiv:2305.05181); evaluated on LoCoMo: Long-Term Conversational Memory Benchmark (Snap Research, 2402)MoT paper (arXiv:2305.05181); evaluated on LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Salesforce AI Research, 2410)MoT paper (arXiv:2305.05181); evaluated on HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering (Stanford / CMU, 1809)MoT paper (arXiv:2305.05181); evaluated on MemoryBank: Enhancing LLMs with Long-Term Memory (Sun Yat-sen University, 2305)MoT paper (arXiv:2305.05181); evaluated on MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries (HKUST, 2401)