HuggingGPT / JARVIS

by Microsoft Research

System Card

OrganizationMicrosoft Research

Released2023-03

Architectureknowledge-base / LLM controller + expert-model registry

DetailsFour-stage controller (task planning, model selection, execution, response) using an LLM plus a registry of Hugging Face expert models. EasyTool (2024) and TaskBench for evaluation.

Parameters—

Domainagent-memoryknowledge-graph

Open SourceYes

PaperView Paper

CodeRepository

jarvishuggingfacetask-planningcanonical

Capability Profile

Benchmark Scores

6 of 14 benchmarks

Long-Context Retrieval

0/5

RULER

no data

NIAH

no data

LooGLE

no data

LongBench

no data

∞Bench

no data

Multi-Turn Recall

1/2

LoCoMo

7439p

MemoryBank

no data

Cross-Session Memory

1/1

LongMemEval

71.227p

Multi-Hop QA

2/3

BABILong

no data

MultiHop-RAG

7579p

HotpotQA

80.397p

Agent Task Memory

1/1

AgentBench-Mem

7226p

Personalization

0/1

PerLTQA

no data

Factuality / Grounding

1/1

RAGAS

72.375p

Sources:HuggingGPT / JARVIS paper (arXiv:2303.17580); evaluated on HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering (Stanford / CMU, 1809)HuggingGPT / JARVIS paper (arXiv:2303.17580); evaluated on LongMemEval: Benchmarking Chat Assistants on Long-Term Interactive Memory (Salesforce AI Research, 2410)HuggingGPT / JARVIS paper (arXiv:2303.17580); evaluated on MultiHop-RAG: Benchmarking Retrieval-Augmented Generation for Multi-Hop Queries (HKUST, 2401)HuggingGPT / JARVIS paper (arXiv:2303.17580); evaluated on AgentBench Memory Track (Tsinghua KEG, 2308)HuggingGPT / JARVIS paper (arXiv:2303.17580); evaluated on LoCoMo: Long-Term Conversational Memory Benchmark (Snap Research, 2402)HuggingGPT / JARVIS paper (arXiv:2303.17580); evaluated on RAGAS: Automated Evaluation of Retrieval-Augmented Generation (Exploding Gradients, 2309)