VITA-Bench 是什么

VITA-Bench 是美团龙猫（Meituan LongCat）团队推出的一个 AI Agent 能力评测基准，论文已被 ICLR 2026 接收。

核心是测 LLM 在真实消费服务场景里的多步交互能力：

测什么场景
- 外卖点餐、到店消费、在线旅游（OTA）等生活服务类任务
- 模拟了 66 个互相关联的工具 API，含前置/后置条件和依赖关系
- 100 个跨场景任务 + 300 个单场景任务，都来自真实用户请求

难点在哪
- 领域切换：要在餐饮、旅游、到店等不同领域间协调
- 多轮交互：用户意图动态变化，需要澄清模糊需求
- 时序空间推理 + 工具选择编排 + 错误恢复
- 有干扰信息、交易历史记录，答案不唯一

成绩
- 目前最强的模型在跨场景任务上也只有 ~32.5% 的成功率
- 单场景好一些，能到 ~60% 出头
- 主要错误来源：推理错误占 62%，工具使用问题其次

为什么重要
它比很多老 benchmark 更贴近真实应用的复杂度——不是简单的单轮 QA 或单工具调用，而是多领域、多工具、长链条的 agent 能力考察。对评估 AI 能不能真正"干活"（而不是聊天）很有参考价值。

简单说：VITA-Bench = 测 AI 能不能像真人客服一样，在多个生活服务 App 之间来回切换帮你搞定一件事。