一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

SAGE研究揭示RLVR仅提升LLM采样效率而非推理能力

时间:2026-05-31 18:24:01 编辑:袖梨 来源:一聚教程网

日前,一篇发表在arXiv上的研究指出,基于可验证奖励的强化学习(RLVR)虽然能提升大语言模型(LLM)在推理任务中的pass@1指标,却未能显著改善pass@k表现。这让人不禁要问:RLVR真的让模型学会了新推理能力,还是仅仅让模型更高效地去采样那些早已存在的推理模式?

这项名为SAGE的研究,由学术团队发布在arXiv:2605.18864v1上。他们观察到一个矛盾现象:RLVR在提升LLM的首次回答正确率(pass@1)上表现稳定,但在多次采样中的整体正确率(pass@k)上却几乎没有收获。这背后的问题很关键——咱们得搞清楚,RLVR到底是在“教”模型思考,还是在“催”它多试几次?

先前的分析其实已经倾向于后一种观点,即RLVR并未赋予模型全新的推理能力。研究者认为,标准RLVR目标函数的结构性缺陷是主因,它会导致模型在训练中缺乏对推理路径的充分探索。换句话说,模型可能只是学会了更频繁地去调用那些它本来就会的推理方式,而不是真正地掌握了更深层的逻辑链条。

那RLVR的提升从何而来呢?SAGE研究揭示,这其实是一种采样效率的胜利。当模型面对问题时,它内部可能存在多种推理路线,RLVR的训练使得模型更倾向于选择那些历史上答对概率更高的路线,从而提高了单次回答的命中率。但一旦要求模型在多次采样中展现真正的推理广度,问题就暴露了——它翻来覆去还是那几招,没什么新花样。

这确实挺让人遗憾的。凭什么一个在pass@1上效果不错的技术,在pass@k上就失灵了?根本原因在于,RLVR的奖励信号过于稀疏和局部化。模型只要在单次采样中碰巧选对了思考方向,就能获得奖励,它因此缺乏动力去探索更复杂但可能更正确的推理路径。结果就是,模型的推理库并未扩大,只是被更高效地调用了。

总结来看,RLVR并非推理能力的“灵药”,而更像是一个效率优化器。它让LLM在有限的计算资源下,更快地从已有知识中“捞”出正确答案。但若想真正提升模型的推理深度和鲁棒性,研究者恐怕需要设计更精细的奖励机制和探索策略,而不是指望靠简单的RLVR就能一劳永逸。

热门栏目