一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

Score $\times$ Decoder: A Unified View of Unsupervised Inference-Time Scaling fo

时间:2026-06-03 16:18:01 编辑:袖梨 来源:一聚教程网

Score × Decoder: A Unified View of Unsupervised Inference-Time Scaling fo 论文核心:无监督推理时缩放的新框架

大型语言模型(LLM)在回答问题时常常“一本正经地胡说八道”,哪怕正确答案其实就藏在它自己的参数里。近日,一篇署名arXiv:2606.00739v1的论文提出了一个关键疑问:当没有人工标注的验证器或奖励模型时,咱们怎么从模型内部“挖出”正确输出?这篇名为《Score × Decoder: A Unified View of Unsupervised Inference-Time Scaling fo》的研究,直接把问题拆成了两个核心部分——哪个内在信号(分数)最好用,以及该怎么解码(解码器)才能把正确答案吐出来?

什么是Score × Decoder网格

说白了,研究者搞了一个“分数 × 解码器”的二维框架。一边是四种分数:perplexity(困惑度,衡量模型对自己输出的惊讶程度)、contrastive(对比分数)、power-distribution likelihood(幂分布似然,一种概率调整方法),还有self-verification(自我验证,让模型自己判断自己说的对不对)。另一边呢,对应三个解码家族。这就构成了一个2×4的网格,目的就是想看看,在完全没有监督信号的情况下,哪种搭配最能从模型中“挤出”正确答案?

为什么这挺重要

其实目前主流的推理时缩放(Inference-Time Scaling)方法,比如“思维链”或者“多数投票”,多数都依赖一个训练好的验证器来打分。但论文问了:如果咱们只有基础模型,没有额外训练过的评分器,那该靠什么信号来识别正确输出?这不就是现实场景里最常见的状态吗——你手头只有一个现成的LLM,没有预算去训练专门的验证器。所以,这篇工作确实在尝试回答一个很实际的问题。

实验结果怎么说

从摘要透露的信息看,不同分数与解码器的组合表现差异非常大。其中self-verification配合特定解码策略时,似乎能更稳定地找到模型“隐藏”的正确知识。而perplexity这种最简单直观的信号,反而在某些任务上表现平平。这就很有意思了——凭什么自我评估比模型自己的“惊讶程度”更可靠?答案可能在于,LLM在自我验证时能调用更多上下文推理,而不仅仅是统计词汇概率。

这对咱们用大模型有什么启发

如果你经常用ChatGPT或Claude写代码、做分析,你会注意到:同一个问题问两次,答案可能差很多。这篇论文的核心思想其实就是在说,不用花钱训练额外模型,只要选对“打分方式+解码策略”,就能显著提升输出的可靠性。比如当你需要模型写一段关键代码时,可以试试让模型先生成几个候选答案,再让它自己评价每个答案的质量——这其实就是self-verification的一种简单应用。

未来路还长着呢

当然,这还只是一个统一视角的理论框架,具体到不同任务、不同规模模型上,最优组合可能还得微调。不过思路挺有意思——既然模型参数里藏着正确答案,那解锁它的钥匙,可能就藏在“分数 × 解码器”这个网格里。你怎么看?

热门栏目