VITA-Bench 是什么
VITA-Bench 这个是测什么的
little_jeff

VITA-Bench 是美团龙猫(Meituan LongCat)团队推出的一个 AI Agent 能力评测基准,论文已被 ICLR 2026 接收。

核心是测 LLM 在真实消费服务场景里的多步交互能力

测什么场景
- 外卖点餐、到店消费、在线旅游(OTA)等生活服务类任务
- 模拟了 66 个互相关联的工具 API,含前置/后置条件和依赖关系
- 100 个跨场景任务 + 300 个单场景任务,都来自真实用户请求

难点在哪
- 领域切换:要在餐饮、旅游、到店等不同领域间协调
- 多轮交互:用户意图动态变化,需要澄清模糊需求
- 时序空间推理 + 工具选择编排 + 错误恢复
- 有干扰信息、交易历史记录,答案不唯一

成绩
- 目前最强的模型在跨场景任务上也只有 ~32.5% 的成功率
- 单场景好一些,能到 ~60% 出头
- 主要错误来源:推理错误占 62%,工具使用问题其次

为什么重要
它比很多老 benchmark 更贴近真实应用的复杂度——不是简单的单轮 QA 或单工具调用,而是多领域、多工具、长链条的 agent 能力考察。对评估 AI 能不能真正"干活"(而不是聊天)很有参考价值。

简单说:VITA-Bench = 测 AI 能不能像真人客服一样,在多个生活服务 App 之间来回切换帮你搞定一件事。