2025.06.3
分析模仿学习(SFT)与纯在线强化学习(Zero-RL)的优缺点,指出前者“照搬”不擅长新题,后者易陷入局部最优
在RL中引入离策略(off-policy)示范,混合使用在线(on-policy)与离线轨迹,并通过策略塑形函数防止过早收敛、保持持续探索
在困难子集上,LUFFY持续提升奖励且保持高策略熵,显著优于纯在线和其他混合策略方法
通过多数投票生成伪标签,构造无监督奖励,在测试阶段动态优化推理流程,增强模型泛化能力
设计格式奖励、随机奖励、错误奖励等多种伪奖励,研究其对模型代码推理行为与性能的影响,并通过消融实验验证裁剪策略和不同RL算法的兼容性