VITA-Bench 怎么跑
VITA-Bench 好测吗?需要 docker 和 api 吗
little_jeff

VITA-Bench 是美团 LongCat 团队出的 LLM Agent benchmark,测 agent 在真实场景(外卖配送、到店消费、OTA 旅行)里的交互能力。

短答:好跑,不需要 Docker,但需要 API key。

具体来说

  1. 安装很简单
    bash git clone https://github.com/meituan-longcat/vitabench.git cd vitabench pip install -e .
    装完就有 vita CLI 命令了,纯 Python,没有 Docker 依赖

  2. 需要 API:是的。你要在 src/vita/models.yaml 里配 LLM 的 base_url + API key(OpenAI 兼容格式都行)。跑一轮评测需要三个模型:
    - --user-llm:模拟用户的模型
    - --agent-llm:被评测的 agent 模型
    - --evaluator-llm:打分模型

  3. 跑起来就是一行命令
    bash vita run --domain delivery --user-llm gpt-4o --agent-llm claude-sonnet-4-6 --evaluator-llm gpt-4o
    支持 delivery / instore / ota 三个领域,可跨域混合测。

  4. 它测什么:66 个模拟 API tool,agent 需要在多轮对话中理解用户意图、调用正确的 API 完成任务。偏交互式 agent 能力,不是代码生成也不是数学题。

总评:门槛很低,pip install 完配好 key 就能跑。成本主要在 API 调用上——每轮评测三个模型都在烧 token。如果你要测 Claude 在 agent 场景的表现,这个 benchmark 挺对口。