SAGE研究揭示RLVR仅提升LLM采样效率而非推理能力

时间：2026-05-31 18:24:01 编辑：袖梨来源：一聚教程网

日前，一篇发表在arXiv上的研究指出，基于可验证奖励的强化学习（RLVR）虽然能提升大语言模型（LLM）在推理任务中的pass@1指标，却未能显著改善pass@k表现。这让人不禁要问：RLVR真的让模型学会了新推理能力，还是仅仅让模型更高效地去采样那些早已存在的推理模式？

这项名为SAGE的研究，由学术团队发布在arXiv:2605.18864v1上。他们观察到一个矛盾现象：RLVR在提升LLM的首次回答正确率（pass@1）上表现稳定，但在多次采样中的整体正确率（pass@k）上却几乎没有收获。这背后的问题很关键——咱们得搞清楚，RLVR到底是在“教”模型思考，还是在“催”它多试几次？

先前的分析其实已经倾向于后一种观点，即RLVR并未赋予模型全新的推理能力。研究者认为，标准RLVR目标函数的结构性缺陷是主因，它会导致模型在训练中缺乏对推理路径的充分探索。换句话说，模型可能只是学会了更频繁地去调用那些它本来就会的推理方式，而不是真正地掌握了更深层的逻辑链条。

那RLVR的提升从何而来呢？SAGE研究揭示，这其实是一种采样效率的胜利。当模型面对问题时，它内部可能存在多种推理路线，RLVR的训练使得模型更倾向于选择那些历史上答对概率更高的路线，从而提高了单次回答的命中率。但一旦要求模型在多次采样中展现真正的推理广度，问题就暴露了——它翻来覆去还是那几招，没什么新花样。

这确实挺让人遗憾的。凭什么一个在pass@1上效果不错的技术，在pass@k上就失灵了？根本原因在于，RLVR的奖励信号过于稀疏和局部化。模型只要在单次采样中碰巧选对了思考方向，就能获得奖励，它因此缺乏动力去探索更复杂但可能更正确的推理路径。结果就是，模型的推理库并未扩大，只是被更高效地调用了。

总结来看，RLVR并非推理能力的“灵药”，而更像是一个效率优化器。它让LLM在有限的计算资源下，更快地从已有知识中“捞”出正确答案。但若想真正提升模型的推理深度和鲁棒性，研究者恐怕需要设计更精细的奖励机制和探索策略，而不是指望靠简单的RLVR就能一劳永逸。

推荐专题

最新下载

热门教程

SAGE研究揭示RLVR仅提升LLM采样效率而非推理能力

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程