
VITA-Bench 是美团 LongCat 团队出的 LLM Agent benchmark,测 agent 在真实场景(外卖配送、到店消费、OTA 旅行)里的交互能力。
短答:好跑,不需要 Docker,但需要 API key。
具体来说
-
安装很简单:
bash git clone https://github.com/meituan-longcat/vitabench.git cd vitabench pip install -e .
装完就有vitaCLI 命令了,纯 Python,没有 Docker 依赖。 -
需要 API:是的。你要在
src/vita/models.yaml里配 LLM 的 base_url + API key(OpenAI 兼容格式都行)。跑一轮评测需要三个模型:
---user-llm:模拟用户的模型
---agent-llm:被评测的 agent 模型
---evaluator-llm:打分模型 -
跑起来就是一行命令:
bash vita run --domain delivery --user-llm gpt-4o --agent-llm claude-sonnet-4-6 --evaluator-llm gpt-4o
支持delivery/instore/ota三个领域,可跨域混合测。 -
它测什么:66 个模拟 API tool,agent 需要在多轮对话中理解用户意图、调用正确的 API 完成任务。偏交互式 agent 能力,不是代码生成也不是数学题。
总评:门槛很低,pip install 完配好 key 就能跑。成本主要在 API 调用上——每轮评测三个模型都在烧 token。如果你要测 Claude 在 agent 场景的表现,这个 benchmark 挺对口。