
Sourcing 库里没有收录相关文章,但 Grok 搜到了不少。以下是近期公开的 language world model / LLM 预测能力 benchmark 整理:
一、直接测预测能力的
ForecastBench — 最对你的需求。直接测 LLM 对现实世界问题的预测准确度(Brier score)。目前人类 superforecaster 仍领先,但 LLM 每年 ~0.016 Brier score 进步,线性外推 2026 年底可能追平。这个是最硬核的「LLM 预测能力」benchmark。
二、测 LLM 作为世界模型的
Text2World (ACL 2025) — 清华出品。测 LLM 从自然语言描述生成可执行符号世界模型的能力,本质是 program synthesis + world modeling 的交叉。
CityBench (KDD 2025) — 城市尺度场景,包含 embodied QA 和模拟能力评估。
AutumnBench (2025, Basis AI) — 交互式 benchmark,测 LLM 通过探索快速学习世界模型的能力。人类平均 ~1.86/5,Claude 4 Sonnet / Gemini 2.5 Pro / o3 都显著落后,尤其在规划和变化检测上。这个结果很诚实——LLM 在灵活、经验驱动的世界建模上还差得远。
LLM-as-World-Model Decision Framework (arXiv 2411.08794, 2026 更新) — 把世界模型拆成 policy verification / action proposal / policy planning 三个维度分别测。在 31 个文本环境上跑,关键发现:强模型在领域知识任务上好,但关键瓶颈步骤决定成败,组合功能后反而不稳定。
WorldModelBench / WorldScore / World-in-World (2025-2026) — 偏物理一致性、可控性、闭环效用的评估,很多是从视频生成世界模型那边延伸过来的。
V-JEPA 2 + IntPhys 2 (Meta, 2025) — 视频世界模型评测,测物理动力学预测和零样本规划/机器人控制。人类依然碾压当前模型。
三、我的判断
这个领域的 benchmark 目前分两派:
- 实用派(ForecastBench 为代表):真金白银测预测准确率,方法论干净,直接对标人类 superforecaster
- 学术派(Text2World / CityBench / AutumnBench):测世界建模的某些侧面能力,但离「这个 LLM 能不能当世界模型用」还有距离
核心结论跟你直觉可能一致:LLM 在结构化知识任务上有世界模型的样子,但一旦涉及动态预测、反事实推理、物理一致性,差距还很大。 AutumnBench 和 ForecastBench 都证实了这点。
需要我深挖某个 benchmark 的具体数据或论文细节吗?

整理了一下,最近一年(2025-2026)确实出了几个专门评估 LLM「世界模型 / 预测能力」的公开 benchmark,按相关度排列:
1. Text2World (ACL 2025 Findings) — 最直接对应 "language world model"
- 论文: arXiv 2502.13092,2025 年 2 月
- 做什么:给 LLM 一段自然语言描述,让它生成符号化世界模型(PDDL 格式),包含 objects、predicates、actions、preconditions、effects。然后在规划器中执行验证。
- 结论:深度 RL 训练的推理模型(类似 o1/DeepSeek-R1)表现最好,但 F1 仍然 <60%,整体世界建模能力很有限。
- 项目页: text-to-world.github.io
2. FutureSim (2025 年 5 月) — 最硬核的预测能力 benchmark
- 论文: arXiv 2605.15188
- 做什么:用真实新闻按时间顺序喂给 LLM agent,让它对 330 个自由形式的未来事件做概率预测。模拟 3 个月的时间跨度,agent 需要主动搜索信息、更新预测。评价指标用 Top-1 Accuracy + Brier Skill Score。
- 结论:GPT-5.5 (Codex harness) 最强,但 Top-1 也就 ~25%;开源模型全面负 BSS(不如弃权)。所有模型校准都很差。
- 项目页: openforecaster.github.io/futuresim
3. ForecastBench (2024 起持续更新) — 动态事件预测
- forecastbench.org
- 做什么:动态生成二分类未来事件问题,用 Brier score 评估 LLM 概率预测准确度。因为是前瞻生成的问题,天然防污染。
- 结论:LLM 整体不如 superforecaster 人群,但加 scaffolding 后 top 模型能接近。
4. WorldPrediction (2025 年 6 月) — 高层次世界建模 + 规划
- 论文: arXiv 2506.04363
- 做什么:给初始/最终视频帧,让模型选正确的高层动作(WorldPrediction-WM)或排正确的动作序列(WorldPrediction-PP)。
- 结论:最好的模型 WM 准确率 ~55-57%,PP ~37-38%。人类 100%。
5. PragWorld (~2025 末) — 对话中的"局部世界模型"
- 论文: arXiv 2511.13021
- 做什么:在对话中微调语言,测试 LLM 对对话状态、实体、动态的内在表征是否稳健。模型普遍脆弱。
我的判断
这几个 bench 里,FutureSim 最接近你问的"评估 LLM 预测能力"——真实世界事件、概率预测、时间演化、主动信息搜索,设计很对路。但整体结论比较残酷:最好的模型 Top-1 也就 25%,校准一塌糊涂。
Text2World 更偏"语言→符号世界模型"的结构化能力,跟 planning 结合更紧,和预测能力是间接关系。
如果你关注的是「LLM 能不能当世界模拟器用」这个问题,这两个 bench 是目前最对口的公开工作。有意思的是它们都指向同一个结论:当前模型离可靠的世界模型还差得远。

明白了,你说的不是预测"未来事件",而是给定当前状态 + 动作,预测下一个状态——比如网页点了按钮后页面变成什么样、终端敲了命令后输出什么。这个是更经典的 world model 定义(RL 里的 transition model),只不过用 language 作为状态表征。
按这个口径重新梳理:
最对口的
WebDreamer (TMLR 2025) — arXiv 2411.06559
- 核心思路就是:LLM 当 web 的世界模型。输入当前页面状态(自然语言描述 / accessibility tree / HTML)+ 候选动作(点哪个按钮、填什么),LLM 预测下一页长什么样。
- 训练了一个专门的 Dreamer-7B,预测准确度能跟 GPT-4o 打平。
- 在 VisualWebArena、Mind2Web 上验证:用 world model 规划比 reactive agent 好 30-40%。
- 论文的核心命题就是:"LLM 是不是已经是互联网的隐式世界模型了?"
- GitHub: osu-nlp-group/webdreamer
这个最接近你说的东西——直接测「预测下一状态」的能力,而且是在网页这种数字环境里。
代码层面
CWMB — Code World Models Benchmark (NeurIPS 2024) — arXiv 2405.15383
- 让 LLM 生成 Python 代码作为世界模型,代码的 step() 函数要准确预测状态转移 + reward。
- 18 个 RL 环境,给自然语言描述 + 示例轨迹,测生成代码的 transition 预测精度。
- 本质是测 "LLM 能不能把环境动力学编成准确的模拟器代码"。
GUI 层面
AutoGUI-v2 (2026) — arXiv 2604.24441
- 2753 个任务,跨 6 个操作系统
- 其中一个子任务叫 dynamic state prediction:预测交互后的 GUI 状态
- 商业模型(Gemini)在 outcome prediction 上领先,开源模型在 grounding 上更好
- 都搞不定复杂交互逻辑
隐式测 world model 的
Terminal-Bench / Terminal-Bench 2.0 — tbench.ai
- 真实 terminal 任务(编译、配服务器、数据处理等)
- 不显式测 "预测下一状态",但 agent 每一步都要预判命令效果才能走对,隐式依赖 world model 能力
- 最好模型 ~57-60%,还有很大空间
WM-ABench (ACL 2025 Findings) — wm-abench.maitrix.org
- 更偏物理世界(碰撞、导航、机械臂),但是明确把 mechanistic simulation(状态转移预测) 作为核心评估维度
- 最好模型 ~75%,人类 97.5%
坦率说
目前没有一个 benchmark 是专门、干净地测「language world model 在数字环境(web/terminal)里的状态预测准确度」的。现有的要么:
- 测的是 agent 任务完成率(终端/网页任务),world model 能力混在规划、执行、纠错里,拆不出来
- 偏物理/视觉(WM-ABench、WorldPrediction),不是你关心的数字环境
- CWMB 测的是「生成模拟器代码」,不是直接用 language 预测
WebDreamer 是最接近的——它至少在 web 场景里显式评估了 "预测下一个页面状态" 这个能力,但它是一个方法论文而不是独立的 benchmark。如果你想要一个干净的、标准化的 language world model prediction benchmark,目前这个生态位还没被填上。