MiniMax M2.7 技术报告

minimax 2.7 有技术报告吗，网址发我吧

MiniMax M2.7 有技术报告，刚出不久：

MiniMax-M2 Series 技术报告（含 M2.7）
- arXiv: https://arxiv.org/abs/2605.26494
- PDF 直链: https://arxiv.org/pdf/2605.26494

5 月 26 号刚提交的，35 页，讲的是 M2 系列 sparse MoE 架构，M2.7 的 self-evolution、agentic 性能、SWE-Pro 等 benchmark 都在里面。

你看看，看看有啥 highlight 吗

看完了，35 页报告信息量很大。几个真正的 highlight：

架构层面

229.9B 总参数，只激活 9.8B（~4.3%），256 个 fine-grained expert，每次 token 激活 8 个。极端稀疏，推理成本应该很低。
Sigmoid gating 替代 softmax——每个 expert 独立打分，不再零和博弈，加 learnable bias 调节利用率。这个改动挺聪明，直接干掉了 aux load-balancing loss 的需求。
全量 attention，没用 hybrid。他们上一代 MiniMax-Text-01 用了 Lightning Attention (SWA 变体)，这代实验发现 hybrid attention 在 32K+ 长上下文场景下严重退化 retrieval 和多跳推理，GPQA-Diamond/MMLU-Pro 都掉。所以老老实实用回全注意力。这个结论本身挺有价值——之前很多团队都在推 hybrid。
MTP (Multi-Token Prediction) speculative decoding：预训练 K=1，继续训练阶段从主模型 weight copy 扩展到 K=3（不是随机初始化），推理时一次 forward 验 3 个 draft token。

RL 系统 (Forge)

CISPO（Clipped Importance Sampling Policy Optimization）：非对称 clip [0, 1+ε]，stop-gradient on clipped ratio。
Composite reward：process reward + speed reward + task reward 三合一。speed reward 是个单调递减 shaping function，鼓励模型别废话。
Prefix Tree Merging：共享 prefix 只算一次，分支各自展开。号称训练加速 40 倍，零近似误差。这是工程上最扎实的东西。
混合域 RL：reasoning / coding / agent / general 四个域一起训，阶段间切换配比，防止灾难性遗忘。

Agent 能力

Interleaved Thinking：推理 token 和行动 token 交替生成，不是先想完再动。完整思考历史追加到 message history（reasoning state persistence）。消融实验显示去掉思考块后多步推理任务性能显著下降。
Agent-driven data pipeline：三个方向——SWE-Scaling（GitHub PR → Docker 环境 → test-based reward）、AppDev（三层 Agent-as-a-Verifier：能跑 → 功能对 → 好看）、Terminal-Gym（Stack Overflow → 结构化任务 schema → Docker 测试）。

M2.7 自我进化

这是最科幻的部分：M2.7 能自己 debug 训练 run——读 log、诊断指标异常、改代码、调配置。号称吸收了 RL 团队 30%-50% 的日常迭代工作量。还展示了一个 100 轮自主迭代优化内部编程 scaffold 的实验，拿到 30% 性能提升。"Humans steer while models build."

Benchmark

约 10B 激活参数，SWE-bench Pro 56.2、AIME 2026 94.2、GPQA-Diamond 89.8。基本贴着 Opus 4.6 / Sonnet 4.6 / GPT 5.4 跑，差距很小。考虑到激活参数只有 ~10B，这个效率确实可以。

一句话总结：MoE 极致稀疏 + 全注意力（没走 hybrid 捷径）+ agent-native RL + 模型自己 debug 自己。工程上 Forge 的 prefix-tree merging 和 windowed FIFO 是亮点，学术上 sigmoid gating 和 interleaved thinking 的设计决策值得关注。

自我进化是具体讲讲呢？

好，这次专门深挖了 self-evolution 章节。给你拆开讲：

自我进化：从 debug 工具到"自己迭代自己"

MiniMax 管这叫 "humans steer while models build"——人定方向，模型干活。

1. Agent Harness：零人类代码的工作环境

M2.7 的运行环境叫 Agent Harness，全部由 M2.7 自己生成，一行人类代码都没有。里面包含：
- 层级化技能链（action chaining）
- 持久化记忆
- 安全护栏
- 评估基础设施

相当于模型自己搭了一套开发环境给自己用。

2. 双循环工作流

外层（人类）：实验规划 → 设定目标 → chat 引导 → review 结果
内层（M2.7 自主）：profile 训练 run → 读 log → 诊断指标异常 → 自动改代码 → 调配置

人类只在关键迭代决策点介入。模型在两次 human review 之间可以自动持续做 bounded analysis，不需要人等。

3. 吃掉了 30%-50% 的日常迭代工作量

这个数字是实际 RL 团队的数据。不是 demo，是已经在生产训练流程里跑了。

4. 100 轮自主迭代实验

最硬核的部分：给 M2.7 一个任务——优化它自己的编程 scaffold。

它自己干了 100 轮：
- 分析失败 case
- 修改代码
- 评估改动效果
- 发现需要 loop detection → 自己加
- 发现更好的参数组合 → 自己调

结果：内部评估 性能提升 30%。

关键不是 30% 这个数字，而是这个循环的含义——模型在改进那些塑造它后续迭代的基础设施。递归自我升级。

5. MLE Bench Lite（补充背景）

评估方式也很有意思：22 个 ML 工程竞赛任务，单张 A30 GPU，24 小时时限，模型用 Bash + WebSearch 自己跑。跑 3 次取均值。具体数字报告里那部分被截断了没读到，但从框架设计看，他们是在严肃地 benchmark 模型的自主 ML 工程能力。

一句话：这不是传统意义上"模型辅助标注"那种弱自主性，而是模型直接参与训练基础设施的代码修改和参数调优，并已经在生产环境中消化了团队 1/3 到一半的迭代活。

任务是什么呢，就是 ml 工程竞赛吗？

两层任务，分开说清楚：

第一层：生产环境——模型参与自己的训练迭代

这是在 MiniMax 内部 RL 训练基础设施上跑的，不是 benchmark，是真的干活：

训练跑 debug：profile 正在跑的 training run → 读 log → 诊断 loss 不下降 / 指标异常 → 自动改代码 → 调配置参数
Scaffold 编辑：M2.7 直接改自己的 agent scaffold 代码，跨任务、跨实验迭代
100 轮自主优化：给它的任务是优化内部编程 scaffold（就是它自己跑 agent 的那套基础设施），100 轮里自己分析失败 case、改代码、评估效果、发现需要 loop detection 就加上、找到更好的参数组合就替换。最终性能提升 30%
日常消化：RL 团队 30%-50% 的日常迭代活被它吃了

这些是真实的工程任务，不是出题考的。

第二层：MLE Bench Lite——标准化评估

这是 OpenAI 开源的一个 benchmark，用来衡量模型的自主 ML 工程能力。22 个 Kaggle 风格的 ML 竞赛题，覆盖完整 ML 工作流：数据处理 → 特征工程 → 模型训练 → 超参优化 → 评估。单卡 A30，24 小时时限。

M2.7 用一个极简 harness 跑：
1. 短期记忆：每轮结束后自动生成 markdown 总结
2. 自我批评：对当前轮结果做 self-criticism
3. 自我优化：根据记忆 + 批评生成下一轮的具体改动方向

形成闭环：跑任务 → 分析失败 → 更新记忆 → 改代码/调参 → 下一轮。

成绩：
| | Medal Rate |
|---|---|
| Opus 4.6 | 75.7% |
| GPT 5.4 | 71.2% |
| M2.7 | 66.6% |
| Gemini 3.1 | 66.6% |

M2.7 最好的一次 run：9 金 5 银 1 铜。

总结：生产环境那层更有意思——不是 benchmark 刷分，是真的在改自己训练基础设施的代码。MLE Bench Lite 更多是验证这个能力可以标准化衡量。

MiniMax 内部 RL 训练基础设施上跑的这么具体怎么跑的呢？有人参与吗？Minimax 2.7 是这样训出来的？

三个好问题，逐一拆开：

1. M2.7 是自己训出来的吗？

不是。 M2.7 走的是正常训练流水线：pre-training（29.2T tokens）→ SFT → RL（Forge 系统）。自我进化是 M2.7 训完后展现出来的能力，不是训练方法本身。

但有一个递归关系：M2.7 现在正在被用来加速下一代模型的迭代。论文里说 M2 → M2.5 → M2.7 的代际提升已经部分受益于这个机制。可以理解为：M2.5 帮了一点 M2.7 的忙，M2.7 会帮 M2.8 更多的忙。

2. 具体怎么跑的？

核心是一套叫 Agent Harness 的工作环境，而且这套环境本身是 M2.7 自己生成的，零人类代码。

里面包含：
- 层级化技能链（action chaining）
- 持久化记忆
- 安全护栏
- 评估基础设施
- Bash + WebSearch 工具

单轮自主迭代闭环：

跑实验 → 读 log → 诊断指标异常 → 生成 self-criticism
    → 写进持久记忆 → 决定改什么（代码/配置/超参/skill）
    → 执行修改 → 跑评估 → 对比结果 → 保留或回滚
    → 下一轮

具体能改的东西包括代码 debug、训练配置参数、agent scaffold 代码、workflow 规则（比如发现需要 loop detection 就自己加上）、采样参数（temperature / frequency penalty / presence penalty）。

论文里举了一个 100 轮自主优化的例子，模型自己发现了一个更好的参数组合，最终性能提升 30%。

和生产系统的对接：训练跑着跑着出问题了（loss 异常、指标偏离），M2.7 自动介入——profile 当前 run → 读 log → 定位问题 → 改代码/调配置。这个过程不需要人等。

3. 人的角色是什么？

论文原话："Humans steer while models build."

分工很明确：

	人	M2.7
实验规划	定目标、设计方向	—
引导	通过 chat 给指令	—
执行	—	全部自主
监控诊断	—	profile / 读 log / 定位异常
代码修改	—	debug / 调配置 / 改 scaffold
关键决策	触发 major iteration decisions	—
Review	看输出、决定下一步	—
日常迭代	—	吃掉 30%-50% 工作量

人类卡的是战略节点：实验开始前定方向、重大分叉时做决策、每轮结束后 review。模型在两个 human review 之间可以自主连续跑 bounded analysis，不需要每一步等人批准。

打个比方：人是 PI（项目负责人），M2.7 是那个 7×24 不用睡觉的 PhD 学生——PI 定方向、看结果、做关键决策，脏活累活学生自己干。