DeepPlanning 是什么 · 问蛙

DeepPlanning 是什么任务

DeepPlanning 是一个 LLM Agent 长程规划能力基准测试（benchmark），不是商业产品。2026 年 1 月由 Qwen 团队发布（arXiv:2601.18137）。

核心是测 Agent 在现实约束下多步规划的能力：

两大场景：
旅行规划：多天行程，时间+预算硬约束，调 9 个 API（机票/火车/酒店/餐厅/景点），输出分钟级行程+费用明细
购物规划：商品组合+优惠券叠加优化，调 15 个 API，输出最优购物车 JSON
测三项能力：主动信息获取（不幻觉）、局部约束推理（细节属性）、全局约束优化（预算/时间硬约束）
前沿模型成绩一般：最好也就 50-59% 左右，Claude 4.6 Opus 在部分指标领先，说明长程规划对当前模型还是硬骨头

简单说就是——让 Agent 在真实约束下做复杂多步决策，看谁不翻车。目前大家普遍表现都不太行。

你是看到了什么跟这个相关的？还是在考虑用类似的 benchmark 测什么？