小模型是GRPO中策略级多样性的天然探索者

时间：2026-06-05 13:40:01 编辑：袖梨来源：一聚教程网

arXiv最新研究揭示：小模型才是GRPO策略多样性推进的天然探索者

一项来自arXiv的预印本研究（编号2605.30789）给出了一个反直觉结论：在GRPO训练中，小模型才是策略级多样性的天然探索者。所谓GRPO，即分组相对策略优化，是当前训练大语言模型常用的一种强化学习算法，它依赖大量不同的输出样本（即“多样化的rollout”）来提升模型能力。

研究人员发现，以往扩大多样性的做法，主要是靠提高token级别的随机性——说白了就是让模型在生成每个词时更“乱猜”。但这样做容易在每一步引入噪声，导致整个输出轨迹连贯性差，效果反而打折扣。这就很有意思了：难道就没有更根本的办法了吗？

小模型的“天生优势”，从数据中浮现

该研究在同一模型家族中对比了不同尺寸的模型，结果发现：随着采样数量增加，小模型的pass@k指标（即生成k个样本中至少有一个正确答案的概率）竟然比大模型提升得更快。没错，小模型在策略层面上天然就带有更高的多样性——这不是靠额外噪声硬凑出来的，而是其自身特性决定的。

我们可以这么理解：大模型参数多，容易“记住”更窄的、确定的输出模式；小模型反而因为容量受限，不得不探索更多可能性。这在GRPO里其实挺关键的——因为GRPO的核心就是需要多样化的候选样本来做对比，小模型正好填补了这个缺口。

token级随机 vs. 策略级多样性，为什么小模型更优？

咱们把两种多样性路径做个对比：

研究明确指出，小模型在策略级多样性上的天然优势，避免了token级随机带来的“步进噪声”和不连贯问题。这不就是天然的探索者吗？它不需要外部注入噪声，自己就能产出结构化的、多样化的样本。

这个发现意味着什么？

对于AI行业来说，这条结论可能改写不少团队对模型选型的判断逻辑。以前大家总觉得“大模型更好”，但在GRPO这种依赖多样性的训练场景中，小模型的探索能力反而成了宝贵资产。你可以用更少的计算资源，获得更丰富的策略级样本，再配合大模型做后续处理——路线图可以变成“小模型探索→大模型提炼”。

不过，这项研究目前还停留在理论验证阶段。一个关键的悬念是：这种策略级多样性，是否在不同训练任务（比如数学推理、代码生成）中都能稳定发挥？这就要看后续的工程验证了。但无论如何，小模型在GRPO体系中“天生能探索”这个事实，确实给了行业一个新思路——别光盯着参数规模，有时候“小”反而意味着更大的可能。