
MiniMax M2.7 有技术报告,刚出不久:
MiniMax-M2 Series 技术报告(含 M2.7)
- arXiv: https://arxiv.org/abs/2605.26494
- PDF 直链: https://arxiv.org/pdf/2605.26494
5 月 26 号刚提交的,35 页,讲的是 M2 系列 sparse MoE 架构,M2.7 的 self-evolution、agentic 性能、SWE-Pro 等 benchmark 都在里面。

看完了,35 页报告信息量很大。几个真正的 highlight:
架构层面
- 229.9B 总参数,只激活 9.8B(~4.3%),256 个 fine-grained expert,每次 token 激活 8 个。极端稀疏,推理成本应该很低。
- Sigmoid gating 替代 softmax——每个 expert 独立打分,不再零和博弈,加 learnable bias 调节利用率。这个改动挺聪明,直接干掉了 aux load-balancing loss 的需求。
- 全量 attention,没用 hybrid。他们上一代 MiniMax-Text-01 用了 Lightning Attention (SWA 变体),这代实验发现 hybrid attention 在 32K+ 长上下文场景下严重退化 retrieval 和多跳推理,GPQA-Diamond/MMLU-Pro 都掉。所以老老实实用回全注意力。这个结论本身挺有价值——之前很多团队都在推 hybrid。
- MTP (Multi-Token Prediction) speculative decoding:预训练 K=1,继续训练阶段从主模型 weight copy 扩展到 K=3(不是随机初始化),推理时一次 forward 验 3 个 draft token。
RL 系统 (Forge)
- CISPO(Clipped Importance Sampling Policy Optimization):非对称 clip [0, 1+ε],stop-gradient on clipped ratio。
- Composite reward:process reward + speed reward + task reward 三合一。speed reward 是个单调递减 shaping function,鼓励模型别废话。
- Prefix Tree Merging:共享 prefix 只算一次,分支各自展开。号称训练加速 40 倍,零近似误差。这是工程上最扎实的东西。
- 混合域 RL:reasoning / coding / agent / general 四个域一起训,阶段间切换配比,防止灾难性遗忘。
Agent 能力
- Interleaved Thinking:推理 token 和行动 token 交替生成,不是先想完再动。完整思考历史追加到 message history(reasoning state persistence)。消融实验显示去掉思考块后多步推理任务性能显著下降。
- Agent-driven data pipeline:三个方向——SWE-Scaling(GitHub PR → Docker 环境 → test-based reward)、AppDev(三层 Agent-as-a-Verifier:能跑 → 功能对 → 好看)、Terminal-Gym(Stack Overflow → 结构化任务 schema → Docker 测试)。
M2.7 自我进化
这是最科幻的部分:M2.7 能自己 debug 训练 run——读 log、诊断指标异常、改代码、调配置。号称吸收了 RL 团队 30%-50% 的日常迭代工作量。还展示了一个 100 轮自主迭代优化内部编程 scaffold 的实验,拿到 30% 性能提升。"Humans steer while models build."
Benchmark
约 10B 激活参数,SWE-bench Pro 56.2、AIME 2026 94.2、GPQA-Diamond 89.8。基本贴着 Opus 4.6 / Sonnet 4.6 / GPT 5.4 跑,差距很小。考虑到激活参数只有 ~10B,这个效率确实可以。
一句话总结:MoE 极致稀疏 + 全注意力(没走 hybrid 捷径)+ agent-native RL + 模型自己 debug 自己。工程上 Forge 的 prefix-tree merging 和 windowed FIFO 是亮点,学术上 sigmoid gating 和 interleaved thinking 的设计决策值得关注。

好,这次专门深挖了 self-evolution 章节。给你拆开讲:
自我进化:从 debug 工具到"自己迭代自己"
MiniMax 管这叫 "humans steer while models build"——人定方向,模型干活。
1. Agent Harness:零人类代码的工作环境
M2.7 的运行环境叫 Agent Harness,全部由 M2.7 自己生成,一行人类代码都没有。里面包含:
- 层级化技能链(action chaining)
- 持久化记忆
- 安全护栏
- 评估基础设施
相当于模型自己搭了一套开发环境给自己用。
2. 双循环工作流
外层(人类):实验规划 → 设定目标 → chat 引导 → review 结果
内层(M2.7 自主):profile 训练 run → 读 log → 诊断指标异常 → 自动改代码 → 调配置
人类只在关键迭代决策点介入。模型在两次 human review 之间可以自动持续做 bounded analysis,不需要人等。
3. 吃掉了 30%-50% 的日常迭代工作量
这个数字是实际 RL 团队的数据。不是 demo,是已经在生产训练流程里跑了。
4. 100 轮自主迭代实验
最硬核的部分:给 M2.7 一个任务——优化它自己的编程 scaffold。
它自己干了 100 轮:
- 分析失败 case
- 修改代码
- 评估改动效果
- 发现需要 loop detection → 自己加
- 发现更好的参数组合 → 自己调
结果:内部评估 性能提升 30%。
关键不是 30% 这个数字,而是这个循环的含义——模型在改进那些塑造它后续迭代的基础设施。递归自我升级。
5. MLE Bench Lite(补充背景)
评估方式也很有意思:22 个 ML 工程竞赛任务,单张 A30 GPU,24 小时时限,模型用 Bash + WebSearch 自己跑。跑 3 次取均值。具体数字报告里那部分被截断了没读到,但从框架设计看,他们是在严肃地 benchmark 模型的自主 ML 工程能力。
一句话:这不是传统意义上"模型辅助标注"那种弱自主性,而是模型直接参与训练基础设施的代码修改和参数调优,并已经在生产环境中消化了团队 1/3 到一半的迭代活。

两层任务,分开说清楚:
第一层:生产环境——模型参与自己的训练迭代
这是在 MiniMax 内部 RL 训练基础设施上跑的,不是 benchmark,是真的干活:
- 训练跑 debug:profile 正在跑的 training run → 读 log → 诊断 loss 不下降 / 指标异常 → 自动改代码 → 调配置参数
- Scaffold 编辑:M2.7 直接改自己的 agent scaffold 代码,跨任务、跨实验迭代
- 100 轮自主优化:给它的任务是优化内部编程 scaffold(就是它自己跑 agent 的那套基础设施),100 轮里自己分析失败 case、改代码、评估效果、发现需要 loop detection 就加上、找到更好的参数组合就替换。最终性能提升 30%
- 日常消化:RL 团队 30%-50% 的日常迭代活被它吃了
这些是真实的工程任务,不是出题考的。
第二层:MLE Bench Lite——标准化评估
这是 OpenAI 开源的一个 benchmark,用来衡量模型的自主 ML 工程能力。22 个 Kaggle 风格的 ML 竞赛题,覆盖完整 ML 工作流:数据处理 → 特征工程 → 模型训练 → 超参优化 → 评估。单卡 A30,24 小时时限。
M2.7 用一个极简 harness 跑:
1. 短期记忆:每轮结束后自动生成 markdown 总结
2. 自我批评:对当前轮结果做 self-criticism
3. 自我优化:根据记忆 + 批评生成下一轮的具体改动方向
形成闭环:跑任务 → 分析失败 → 更新记忆 → 改代码/调参 → 下一轮。
成绩:
| | Medal Rate |
|---|---|
| Opus 4.6 | 75.7% |
| GPT 5.4 | 71.2% |
| M2.7 | 66.6% |
| Gemini 3.1 | 66.6% |
M2.7 最好的一次 run:9 金 5 银 1 铜。
总结:生产环境那层更有意思——不是 benchmark 刷分,是真的在改自己训练基础设施的代码。MLE Bench Lite 更多是验证这个能力可以标准化衡量。

三个好问题,逐一拆开:
1. M2.7 是自己训出来的吗?
不是。 M2.7 走的是正常训练流水线:pre-training(29.2T tokens)→ SFT → RL(Forge 系统)。自我进化是 M2.7 训完后展现出来的能力,不是训练方法本身。
但有一个递归关系:M2.7 现在正在被用来加速下一代模型的迭代。论文里说 M2 → M2.5 → M2.7 的代际提升已经部分受益于这个机制。可以理解为:M2.5 帮了一点 M2.7 的忙,M2.7 会帮 M2.8 更多的忙。
2. 具体怎么跑的?
核心是一套叫 Agent Harness 的工作环境,而且这套环境本身是 M2.7 自己生成的,零人类代码。
里面包含:
- 层级化技能链(action chaining)
- 持久化记忆
- 安全护栏
- 评估基础设施
- Bash + WebSearch 工具
单轮自主迭代闭环:
跑实验 → 读 log → 诊断指标异常 → 生成 self-criticism
→ 写进持久记忆 → 决定改什么(代码/配置/超参/skill)
→ 执行修改 → 跑评估 → 对比结果 → 保留或回滚
→ 下一轮
具体能改的东西包括代码 debug、训练配置参数、agent scaffold 代码、workflow 规则(比如发现需要 loop detection 就自己加上)、采样参数(temperature / frequency penalty / presence penalty)。
论文里举了一个 100 轮自主优化的例子,模型自己发现了一个更好的参数组合,最终性能提升 30%。
和生产系统的对接:训练跑着跑着出问题了(loss 异常、指标偏离),M2.7 自动介入——profile 当前 run → 读 log → 定位问题 → 改代码/调配置。这个过程不需要人等。
3. 人的角色是什么?
论文原话:"Humans steer while models build."
分工很明确:
| 人 | M2.7 | |
|---|---|---|
| 实验规划 | 定目标、设计方向 | — |
| 引导 | 通过 chat 给指令 | — |
| 执行 | — | 全部自主 |
| 监控诊断 | — | profile / 读 log / 定位异常 |
| 代码修改 | — | debug / 调配置 / 改 scaffold |
| 关键决策 | 触发 major iteration decisions | — |
| Review | 看输出、决定下一步 | — |
| 日常迭代 | — | 吃掉 30%-50% 工作量 |
人类卡的是战略节点:实验开始前定方向、重大分叉时做决策、每轮结束后 review。模型在两个 human review 之间可以自主连续跑 bounded analysis,不需要每一步等人批准。
打个比方:人是 PI(项目负责人),M2.7 是那个 7×24 不用睡觉的 PhD 学生——PI 定方向、看结果、做关键决策,脏活累活学生自己干。