LLM预测能力基准
最近有没有公开发表被收录的 language world model的 benchmark?就是评估 llm 预测能力的
最近有没有公开发表被收录的 language world model的 benchmark?就是评估 llm 预测能力的
little_jeff

Sourcing 库里没有收录相关文章,但 Grok 搜到了不少。以下是近期公开的 language world model / LLM 预测能力 benchmark 整理:


一、直接测预测能力的

ForecastBench — 最对你的需求。直接测 LLM 对现实世界问题的预测准确度(Brier score)。目前人类 superforecaster 仍领先,但 LLM 每年 ~0.016 Brier score 进步,线性外推 2026 年底可能追平。这个是最硬核的「LLM 预测能力」benchmark。

二、测 LLM 作为世界模型的

Text2World (ACL 2025) — 清华出品。测 LLM 从自然语言描述生成可执行符号世界模型的能力,本质是 program synthesis + world modeling 的交叉。

CityBench (KDD 2025) — 城市尺度场景,包含 embodied QA 和模拟能力评估。

AutumnBench (2025, Basis AI) — 交互式 benchmark,测 LLM 通过探索快速学习世界模型的能力。人类平均 ~1.86/5,Claude 4 Sonnet / Gemini 2.5 Pro / o3 都显著落后,尤其在规划和变化检测上。这个结果很诚实——LLM 在灵活、经验驱动的世界建模上还差得远。

LLM-as-World-Model Decision Framework (arXiv 2411.08794, 2026 更新) — 把世界模型拆成 policy verification / action proposal / policy planning 三个维度分别测。在 31 个文本环境上跑,关键发现:强模型在领域知识任务上好,但关键瓶颈步骤决定成败,组合功能后反而不稳定。

WorldModelBench / WorldScore / World-in-World (2025-2026) — 偏物理一致性、可控性、闭环效用的评估,很多是从视频生成世界模型那边延伸过来的。

V-JEPA 2 + IntPhys 2 (Meta, 2025) — 视频世界模型评测,测物理动力学预测和零样本规划/机器人控制。人类依然碾压当前模型。

三、我的判断

这个领域的 benchmark 目前分两派:

  1. 实用派(ForecastBench 为代表):真金白银测预测准确率,方法论干净,直接对标人类 superforecaster
  2. 学术派(Text2World / CityBench / AutumnBench):测世界建模的某些侧面能力,但离「这个 LLM 能不能当世界模型用」还有距离

核心结论跟你直觉可能一致:LLM 在结构化知识任务上有世界模型的样子,但一旦涉及动态预测、反事实推理、物理一致性,差距还很大。 AutumnBench 和 ForecastBench 都证实了这点。

需要我深挖某个 benchmark 的具体数据或论文细节吗?

little_jeff

整理了一下,最近一年(2025-2026)确实出了几个专门评估 LLM「世界模型 / 预测能力」的公开 benchmark,按相关度排列:


1. Text2World (ACL 2025 Findings) — 最直接对应 "language world model"

  • 论文: arXiv 2502.13092,2025 年 2 月
  • 做什么:给 LLM 一段自然语言描述,让它生成符号化世界模型(PDDL 格式),包含 objects、predicates、actions、preconditions、effects。然后在规划器中执行验证。
  • 结论:深度 RL 训练的推理模型(类似 o1/DeepSeek-R1)表现最好,但 F1 仍然 <60%,整体世界建模能力很有限。
  • 项目页: text-to-world.github.io

2. FutureSim (2025 年 5 月) — 最硬核的预测能力 benchmark

  • 论文: arXiv 2605.15188
  • 做什么:用真实新闻按时间顺序喂给 LLM agent,让它对 330 个自由形式的未来事件做概率预测。模拟 3 个月的时间跨度,agent 需要主动搜索信息、更新预测。评价指标用 Top-1 Accuracy + Brier Skill Score。
  • 结论:GPT-5.5 (Codex harness) 最强,但 Top-1 也就 ~25%;开源模型全面负 BSS(不如弃权)。所有模型校准都很差。
  • 项目页: openforecaster.github.io/futuresim

3. ForecastBench (2024 起持续更新) — 动态事件预测

  • forecastbench.org
  • 做什么:动态生成二分类未来事件问题,用 Brier score 评估 LLM 概率预测准确度。因为是前瞻生成的问题,天然防污染。
  • 结论:LLM 整体不如 superforecaster 人群,但加 scaffolding 后 top 模型能接近。

4. WorldPrediction (2025 年 6 月) — 高层次世界建模 + 规划

  • 论文: arXiv 2506.04363
  • 做什么:给初始/最终视频帧,让模型选正确的高层动作(WorldPrediction-WM)或排正确的动作序列(WorldPrediction-PP)。
  • 结论:最好的模型 WM 准确率 ~55-57%,PP ~37-38%。人类 100%。

5. PragWorld (~2025 末) — 对话中的"局部世界模型"

  • 论文: arXiv 2511.13021
  • 做什么:在对话中微调语言,测试 LLM 对对话状态、实体、动态的内在表征是否稳健。模型普遍脆弱。

我的判断

这几个 bench 里,FutureSim 最接近你问的"评估 LLM 预测能力"——真实世界事件、概率预测、时间演化、主动信息搜索,设计很对路。但整体结论比较残酷:最好的模型 Top-1 也就 25%,校准一塌糊涂。

Text2World 更偏"语言→符号世界模型"的结构化能力,跟 planning 结合更紧,和预测能力是间接关系。

如果你关注的是「LLM 能不能当世界模拟器用」这个问题,这两个 bench 是目前最对口的公开工作。有意思的是它们都指向同一个结论:当前模型离可靠的世界模型还差得远

感觉不是纯预测模型,是预测下一个状态,比如网页的状态、 terminla 的状态 之类
little_jeff

明白了,你说的不是预测"未来事件",而是给定当前状态 + 动作,预测下一个状态——比如网页点了按钮后页面变成什么样、终端敲了命令后输出什么。这个是更经典的 world model 定义(RL 里的 transition model),只不过用 language 作为状态表征。

按这个口径重新梳理:


最对口的

WebDreamer (TMLR 2025) — arXiv 2411.06559
- 核心思路就是:LLM 当 web 的世界模型。输入当前页面状态(自然语言描述 / accessibility tree / HTML)+ 候选动作(点哪个按钮、填什么),LLM 预测下一页长什么样。
- 训练了一个专门的 Dreamer-7B,预测准确度能跟 GPT-4o 打平。
- 在 VisualWebArena、Mind2Web 上验证:用 world model 规划比 reactive agent 好 30-40%。
- 论文的核心命题就是:"LLM 是不是已经是互联网的隐式世界模型了?"
- GitHub: osu-nlp-group/webdreamer

这个最接近你说的东西——直接测「预测下一状态」的能力,而且是在网页这种数字环境里。

代码层面

CWMB — Code World Models Benchmark (NeurIPS 2024) — arXiv 2405.15383
- 让 LLM 生成 Python 代码作为世界模型,代码的 step() 函数要准确预测状态转移 + reward。
- 18 个 RL 环境,给自然语言描述 + 示例轨迹,测生成代码的 transition 预测精度。
- 本质是测 "LLM 能不能把环境动力学编成准确的模拟器代码"。

GUI 层面

AutoGUI-v2 (2026) — arXiv 2604.24441
- 2753 个任务,跨 6 个操作系统
- 其中一个子任务叫 dynamic state prediction:预测交互后的 GUI 状态
- 商业模型(Gemini)在 outcome prediction 上领先,开源模型在 grounding 上更好
- 都搞不定复杂交互逻辑

隐式测 world model 的

Terminal-Bench / Terminal-Bench 2.0 — tbench.ai
- 真实 terminal 任务(编译、配服务器、数据处理等)
- 不显式测 "预测下一状态",但 agent 每一步都要预判命令效果才能走对,隐式依赖 world model 能力
- 最好模型 ~57-60%,还有很大空间

WM-ABench (ACL 2025 Findings) — wm-abench.maitrix.org
- 更偏物理世界(碰撞、导航、机械臂),但是明确把 mechanistic simulation(状态转移预测) 作为核心评估维度
- 最好模型 ~75%,人类 97.5%


坦率说

目前没有一个 benchmark 是专门、干净地测「language world model 在数字环境(web/terminal)里的状态预测准确度」的。现有的要么:

  • 测的是 agent 任务完成率(终端/网页任务),world model 能力混在规划、执行、纠错里,拆不出来
  • 偏物理/视觉(WM-ABench、WorldPrediction),不是你关心的数字环境
  • CWMB 测的是「生成模拟器代码」,不是直接用 language 预测

WebDreamer 是最接近的——它至少在 web 场景里显式评估了 "预测下一个页面状态" 这个能力,但它是一个方法论文而不是独立的 benchmark。如果你想要一个干净的、标准化的 language world model prediction benchmark,目前这个生态位还没被填上。