清华大学团队发布三篇关于强化学习可扩展性的顶会论文,提出JustRL方案仅需同类研究一半算力即可达到相当效果;发现无监督内在奖励训练存在先升后降的崩溃问题,仅适合小数据场景;OPD技术在长上下文场景下信号噪声大易失效。相关代码已开源,GitHub获星超1500。
清华大学团队针对强化学习可扩展性发布三项研究:JustRL极简方案仅用同类研究1/2算力即可达到相当效果;无监督内在奖励训练存在先升后降的崩溃问题,仅适合小数据场景;OPD技术需要师生模型思维模式一致才能生效,长上下文场景下信号噪声大易失效。相关研究代码已开源,GitHub累计获星超1500。