VITA-Bench 怎么跑

VITA-Bench 是美团 LongCat 团队出的 LLM Agent benchmark，测 agent 在真实场景（外卖配送、到店消费、OTA 旅行）里的交互能力。

短答：好跑，不需要 Docker，但需要 API key。

安装很简单：
bash git clone https://github.com/meituan-longcat/vitabench.git cd vitabench pip install -e .
装完就有 vita CLI 命令了，纯 Python，没有 Docker 依赖。
需要 API：是的。你要在 src/vita/models.yaml 里配 LLM 的 base_url + API key（OpenAI 兼容格式都行）。跑一轮评测需要三个模型：
- --user-llm：模拟用户的模型
- --agent-llm：被评测的 agent 模型
- --evaluator-llm：打分模型
跑起来就是一行命令：
bash vita run --domain delivery --user-llm gpt-4o --agent-llm claude-sonnet-4-6 --evaluator-llm gpt-4o
支持 delivery / instore / ota 三个领域，可跨域混合测。
它测什么：66 个模拟 API tool，agent 需要在多轮对话中理解用户意图、调用正确的 API 完成任务。偏交互式 agent 能力，不是代码生成也不是数学题。

总评：门槛很低，pip install 完配好 key 就能跑。成本主要在 API 调用上——每轮评测三个模型都在烧 token。如果你要测 Claude 在 agent 场景的表现，这个 benchmark 挺对口。