DeepPlanning 是什么任务

DeepPlanning 是一个 LLM Agent 长程规划能力基准测试(benchmark),不是商业产品。2026 年 1 月由 Qwen 团队发布(arXiv:2601.18137)。
核心是测 Agent 在现实约束下多步规划的能力:
- 两大场景:
- 旅行规划:多天行程,时间+预算硬约束,调 9 个 API(机票/火车/酒店/餐厅/景点),输出分钟级行程+费用明细
- 购物规划:商品组合+优惠券叠加优化,调 15 个 API,输出最优购物车 JSON
- 测三项能力:主动信息获取(不幻觉)、局部约束推理(细节属性)、全局约束优化(预算/时间硬约束)
- 前沿模型成绩一般:最好也就 50-59% 左右,Claude 4.6 Opus 在部分指标领先,说明长程规划对当前模型还是硬骨头
简单说就是——让 Agent 在真实约束下做复杂多步决策,看谁不翻车。目前大家普遍表现都不太行。
你是看到了什么跟这个相关的?还是在考虑用类似的 benchmark 测什么?