三篇顶会论文共探强化学习的Scaling边界

Alpha 派 3 信息等级 3 抓取：2026-05-09 19:18

AI 研究

摘要

清华大学团队发布三篇关于强化学习可扩展性的顶会论文，提出JustRL方案仅需同类研究一半算力即可达到相当效果；发现无监督内在奖励训练存在先升后降的崩溃问题，仅适合小数据场景；OPD技术在长上下文场景下信号噪声大易失效。相关代码已开源，GitHub获星超1500。

客观事实

清华大学

清华大学团队针对强化学习可扩展性发布三项研究：JustRL极简方案仅用同类研究1/2算力即可达到相当效果；无监督内在奖励训练存在先升后降的崩溃问题，仅适合小数据场景；OPD技术需要师生模型思维模式一致才能生效，长上下文场景下信号噪声大易失效。相关研究代码已开源，GitHub累计获星超1500。