LLM预测能力基准

最近有没有公开发表被收录的 language world model的 benchmark？就是评估 llm 预测能力的

Sourcing 库里没有收录相关文章，但 Grok 搜到了不少。以下是近期公开的 language world model / LLM 预测能力 benchmark 整理：

一、直接测预测能力的

ForecastBench — 最对你的需求。直接测 LLM 对现实世界问题的预测准确度（Brier score）。目前人类 superforecaster 仍领先，但 LLM 每年 ~0.016 Brier score 进步，线性外推 2026 年底可能追平。这个是最硬核的「LLM 预测能力」benchmark。

二、测 LLM 作为世界模型的

Text2World (ACL 2025) — 清华出品。测 LLM 从自然语言描述生成可执行符号世界模型的能力，本质是 program synthesis + world modeling 的交叉。

CityBench (KDD 2025) — 城市尺度场景，包含 embodied QA 和模拟能力评估。

AutumnBench (2025, Basis AI) — 交互式 benchmark，测 LLM 通过探索快速学习世界模型的能力。人类平均 ~1.86/5，Claude 4 Sonnet / Gemini 2.5 Pro / o3 都显著落后，尤其在规划和变化检测上。这个结果很诚实——LLM 在灵活、经验驱动的世界建模上还差得远。

LLM-as-World-Model Decision Framework (arXiv 2411.08794, 2026 更新) — 把世界模型拆成 policy verification / action proposal / policy planning 三个维度分别测。在 31 个文本环境上跑，关键发现：强模型在领域知识任务上好，但关键瓶颈步骤决定成败，组合功能后反而不稳定。

WorldModelBench / WorldScore / World-in-World (2025-2026) — 偏物理一致性、可控性、闭环效用的评估，很多是从视频生成世界模型那边延伸过来的。

V-JEPA 2 + IntPhys 2 (Meta, 2025) — 视频世界模型评测，测物理动力学预测和零样本规划/机器人控制。人类依然碾压当前模型。

三、我的判断

这个领域的 benchmark 目前分两派：

实用派（ForecastBench 为代表）：真金白银测预测准确率，方法论干净，直接对标人类 superforecaster
学术派（Text2World / CityBench / AutumnBench）：测世界建模的某些侧面能力，但离「这个 LLM 能不能当世界模型用」还有距离

核心结论跟你直觉可能一致：LLM 在结构化知识任务上有世界模型的样子，但一旦涉及动态预测、反事实推理、物理一致性，差距还很大。 AutumnBench 和 ForecastBench 都证实了这点。

需要我深挖某个 benchmark 的具体数据或论文细节吗？

整理了一下，最近一年（2025-2026）确实出了几个专门评估 LLM「世界模型 / 预测能力」的公开 benchmark，按相关度排列：

1. Text2World (ACL 2025 Findings) — 最直接对应 "language world model"

论文: arXiv 2502.13092，2025 年 2 月
做什么：给 LLM 一段自然语言描述，让它生成符号化世界模型（PDDL 格式），包含 objects、predicates、actions、preconditions、effects。然后在规划器中执行验证。
结论：深度 RL 训练的推理模型（类似 o1/DeepSeek-R1）表现最好，但 F1 仍然 <60%，整体世界建模能力很有限。
项目页: text-to-world.github.io

2. FutureSim (2025 年 5 月) — 最硬核的预测能力 benchmark

论文: arXiv 2605.15188
做什么：用真实新闻按时间顺序喂给 LLM agent，让它对 330 个自由形式的未来事件做概率预测。模拟 3 个月的时间跨度，agent 需要主动搜索信息、更新预测。评价指标用 Top-1 Accuracy + Brier Skill Score。
结论：GPT-5.5 (Codex harness) 最强，但 Top-1 也就 ~25%；开源模型全面负 BSS（不如弃权）。所有模型校准都很差。
项目页: openforecaster.github.io/futuresim

3. ForecastBench (2024 起持续更新) — 动态事件预测

forecastbench.org
做什么：动态生成二分类未来事件问题，用 Brier score 评估 LLM 概率预测准确度。因为是前瞻生成的问题，天然防污染。
结论：LLM 整体不如 superforecaster 人群，但加 scaffolding 后 top 模型能接近。

4. WorldPrediction (2025 年 6 月) — 高层次世界建模 + 规划

论文: arXiv 2506.04363
做什么：给初始/最终视频帧，让模型选正确的高层动作（WorldPrediction-WM）或排正确的动作序列（WorldPrediction-PP）。
结论：最好的模型 WM 准确率 ~55-57%，PP ~37-38%。人类 100%。

5. PragWorld (~2025 末) — 对话中的"局部世界模型"

论文: arXiv 2511.13021
做什么：在对话中微调语言，测试 LLM 对对话状态、实体、动态的内在表征是否稳健。模型普遍脆弱。

我的判断

这几个 bench 里，FutureSim 最接近你问的"评估 LLM 预测能力"——真实世界事件、概率预测、时间演化、主动信息搜索，设计很对路。但整体结论比较残酷：最好的模型 Top-1 也就 25%，校准一塌糊涂。

Text2World 更偏"语言→符号世界模型"的结构化能力，跟 planning 结合更紧，和预测能力是间接关系。

如果你关注的是「LLM 能不能当世界模拟器用」这个问题，这两个 bench 是目前最对口的公开工作。有意思的是它们都指向同一个结论：当前模型离可靠的世界模型还差得远。

感觉不是纯预测模型，是预测下一个状态，比如网页的状态、 terminla 的状态之类

明白了，你说的不是预测"未来事件"，而是给定当前状态 + 动作，预测下一个状态——比如网页点了按钮后页面变成什么样、终端敲了命令后输出什么。这个是更经典的 world model 定义（RL 里的 transition model），只不过用 language 作为状态表征。

按这个口径重新梳理：

最对口的

WebDreamer (TMLR 2025) — arXiv 2411.06559
- 核心思路就是：LLM 当 web 的世界模型。输入当前页面状态（自然语言描述 / accessibility tree / HTML）+ 候选动作（点哪个按钮、填什么），LLM 预测下一页长什么样。
- 训练了一个专门的 Dreamer-7B，预测准确度能跟 GPT-4o 打平。
- 在 VisualWebArena、Mind2Web 上验证：用 world model 规划比 reactive agent 好 30-40%。
- 论文的核心命题就是："LLM 是不是已经是互联网的隐式世界模型了？"
- GitHub: osu-nlp-group/webdreamer

这个最接近你说的东西——直接测「预测下一状态」的能力，而且是在网页这种数字环境里。

代码层面

CWMB — Code World Models Benchmark (NeurIPS 2024) — arXiv 2405.15383
- 让 LLM 生成 Python 代码作为世界模型，代码的 step() 函数要准确预测状态转移 + reward。
- 18 个 RL 环境，给自然语言描述 + 示例轨迹，测生成代码的 transition 预测精度。
- 本质是测 "LLM 能不能把环境动力学编成准确的模拟器代码"。

GUI 层面

AutoGUI-v2 (2026) — arXiv 2604.24441
- 2753 个任务，跨 6 个操作系统
- 其中一个子任务叫 dynamic state prediction：预测交互后的 GUI 状态
- 商业模型（Gemini）在 outcome prediction 上领先，开源模型在 grounding 上更好
- 都搞不定复杂交互逻辑

隐式测 world model 的

Terminal-Bench / Terminal-Bench 2.0 — tbench.ai
- 真实 terminal 任务（编译、配服务器、数据处理等）
- 不显式测 "预测下一状态"，但 agent 每一步都要预判命令效果才能走对，隐式依赖 world model 能力
- 最好模型 ~57-60%，还有很大空间

WM-ABench (ACL 2025 Findings) — wm-abench.maitrix.org
- 更偏物理世界（碰撞、导航、机械臂），但是明确把 mechanistic simulation（状态转移预测） 作为核心评估维度
- 最好模型 ~75%，人类 97.5%

坦率说

目前没有一个 benchmark 是专门、干净地测「language world model 在数字环境（web/terminal）里的状态预测准确度」的。现有的要么：

测的是 agent 任务完成率（终端/网页任务），world model 能力混在规划、执行、纠错里，拆不出来
偏物理/视觉（WM-ABench、WorldPrediction），不是你关心的数字环境
CWMB 测的是「生成模拟器代码」，不是直接用 language 预测

WebDreamer 是最接近的——它至少在 web 场景里显式评估了 "预测下一个页面状态" 这个能力，但它是一个方法论文而不是独立的 benchmark。如果你想要一个干净的、标准化的 language world model prediction benchmark，目前这个生态位还没被填上。