最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
噪声修正GRPO:从有噪奖励到无偏梯度
时间:2026-05-31 09:54:02 编辑:袖梨 来源:一聚教程网
日前,arXiv 上发布了一篇题为“噪声修正GRPO:从有噪奖励到无偏梯度”的论文(编号 2510.18924v3)。研究者首次将奖励中的不一致或错误信号建模为伯努利噪声,并以此为核心提出了噪声鲁棒的 Group Relative Policy Optimization(GRPO)与 Done Right GRPO(Dr.GRPO)框架,旨在解决强化学习从人类反馈(RLHF)或可验证奖励(RLVR)中长期存在的噪声敏感问题。
在 LLM 对齐以及当前最先进的推理模型训练中,奖励信号的质量直接决定了策略更新的有效性。但现实中标注员之间的分歧、数据标注错误等因素,导致奖励往往带有噪声。传统做法大多靠增加样本量或手工规则来“硬扛”,但很少从梯度层面做修正。这篇论文等于给业界提了个醒:咱们一直用有噪奖励去训练模型,梯度真的算对了吗?

噪声模型:把奖励“脏数据”数学化
作者将奖励腐败抽象为伯努利噪声——简单说就是每个奖励有概率被“翻转”或“污染”。这种建模方式很直观,也挺实用。基于此,他们推导出噪声修正后的梯度估计量,使得原本因为噪声而偏移的策略梯度回归无偏。这可不是简单加个正则化,而是直接从机制上让梯度算准了。

实验验证:GRPO 与 Dr.GRPO 都更稳
论文在多个对齐基准上测试了噪声修正版本的效果。结果显示,无论是标准 GRPO 还是改进的 Dr.GRPO,在引入伯努利噪声后,修正后的模型收敛速度更快,最终性能也明显高于未修正的版本。这说明啥?说明噪声不是靠堆数据就能“平均掉”的,必须用一种系统性的方式去处理。
为什么这件事值得关注?
毕竟 RLHF 已经成了 LLM 训练的标准管线,但它的稳定性一直是个老大难。如果每次奖励信号里混进 10% 的噪声,梯度就偏一点,积累下来模型输出的偏好可能都会跑偏。现在有了这个噪声修正框架,相当于给奖励信号加了“消噪算法”——还真就挺有实际价值的。
不过,能直接用到生产环境吗?
论文目前还处于理论推导加部分验证的阶段。虽然框架设计很漂亮,但实际部署时噪声参数估计、计算开销等因素还需要进一步评估。但至少,它给整个 RLHF 社区提供了一个全新的思考方向:别再默认奖励是干净的啦,咱们得从梯度根源上解决问题!
相关文章
- QQ邮箱网页打不开是怎么回事 05-31
- 跨浏览器兼容重定向实现指南:PHP Header Location技术解析 05-31
- 元气骑士前传职业攻略:选择指南与强度分析 05-31
- OmniGUI:首款评估全模态智能手机环境GUI代理的步级基准 05-31
- 死亡搁浅2保持平放货物有哪些特点 05-31
- 阶跃星辰推出音频推理模型 Step-Audio-R1.1 05-31