NIAH

Name: Needle in a Haystack
Creator: Greg Kamradt
Keywords: long-context-retrieval, long-context

Needle in a Haystack

Benchmark Metadata

PublisherGreg Kamradt

VenueOpen-source benchmark

Evaluation Typeautomatic

Dimensions1

Test Prompts200

ScoringHigher is better

Update Frequencyad-hoc

PaperView Paper

LeaderboardView Leaderboard

What It Measures

Exact recall of a planted fact across context positions
Recall vs depth heatmap
Recall vs context length

What It Does Not Measure

Multi-hop reasoning
Conversational memory
Knowledge updates
Personalization

All Systems Evaluated(13 systems)

1 self-reported12 estimated

Rank	System	Score	Provenance	Source
#1	Titanslucidrains (community) / paper by Google Research	98.8	Self-Reported	arXiv:2501.00663 Table 2 — Titans (MAC) S-NIAH-PK avg: 99.2/98.8/99.0/98.4 at 2K/4K/8K/16K
#2	Landmark AttentionEPFL (Mohtashami, Jaggi)	77.5	Estimated	Arena estimate — derived from capability profile, not independently verified
#3	LM-InfiniteIllinois / Meta (Han et al.)	77.2	Estimated	Arena estimate — derived from capability profile, not independently verified
#4	H2OUT Austin / Rice / CMU / Stanford / Meta (Zhang et al.)	76.1	Estimated	Arena estimate — derived from capability profile, not independently verified
#5	Recurrent Memory TransformerMIPT / DeepPavlov (Bulatov, Kuratov, Burtsev)	75.9	Estimated	Arena estimate — derived from capability profile, not independently verified
#6	Compressive TransformerDeepMind (Rae et al.)	75.1	Estimated	Arena estimate — derived from capability profile, not independently verified
#7	ICAEMicrosoft Research (Ge et al.)	75.1	Estimated	Arena estimate — derived from capability profile, not independently verified
#8	MambaCMU / Princeton (Gu, Dao)	75.1	Estimated	Arena estimate — derived from capability profile, not independently verified
#9	∞ FormerInstituto de Telecomunicações / DeepMind / IST (Martins, Marinho, Martins)	73	Estimated	Arena estimate — derived from capability profile, not independently verified
#10	ScissorhandsRice / Stanford / Meta (Liu et al.)	72.2	Estimated	Arena estimate — derived from capability profile, not independently verified
#11	RWKVRWKV Foundation / BlinkDL community	71.2	Estimated	Arena estimate — derived from capability profile, not independently verified
#12	Activation BeaconBAAI / Renmin University (Zhang et al.)	63.1	Estimated	Arena estimate — derived from capability profile, not independently verified
#13	StreamingLLMMIT Han Lab / Meta AI (Xiao et al.)	60	Estimated	Arena estimate — derived from capability profile, not independently verified