Score $\times$ Decoder: A Unified View of Unsupervised Inference-Time Scaling fo

时间：2026-06-03 16:18:01 编辑：袖梨来源：一聚教程网

Score × Decoder: A Unified View of Unsupervised Inference-Time Scaling fo 论文核心：无监督推理时缩放的新框架

大型语言模型（LLM）在回答问题时常常“一本正经地胡说八道”，哪怕正确答案其实就藏在它自己的参数里。近日，一篇署名arXiv:2606.00739v1的论文提出了一个关键疑问：当没有人工标注的验证器或奖励模型时，咱们怎么从模型内部“挖出”正确输出？这篇名为《Score × Decoder: A Unified View of Unsupervised Inference-Time Scaling fo》的研究，直接把问题拆成了两个核心部分——哪个内在信号（分数）最好用，以及该怎么解码（解码器）才能把正确答案吐出来？

什么是Score × Decoder网格

说白了，研究者搞了一个“分数 × 解码器”的二维框架。一边是四种分数：perplexity（困惑度，衡量模型对自己输出的惊讶程度）、contrastive（对比分数）、power-distribution likelihood（幂分布似然，一种概率调整方法），还有self-verification（自我验证，让模型自己判断自己说的对不对）。另一边呢，对应三个解码家族。这就构成了一个2×4的网格，目的就是想看看，在完全没有监督信号的情况下，哪种搭配最能从模型中“挤出”正确答案？

为什么这挺重要

其实目前主流的推理时缩放（Inference-Time Scaling）方法，比如“思维链”或者“多数投票”，多数都依赖一个训练好的验证器来打分。但论文问了：如果咱们只有基础模型，没有额外训练过的评分器，那该靠什么信号来识别正确输出？这不就是现实场景里最常见的状态吗——你手头只有一个现成的LLM，没有预算去训练专门的验证器。所以，这篇工作确实在尝试回答一个很实际的问题。

实验结果怎么说

从摘要透露的信息看，不同分数与解码器的组合表现差异非常大。其中self-verification配合特定解码策略时，似乎能更稳定地找到模型“隐藏”的正确知识。而perplexity这种最简单直观的信号，反而在某些任务上表现平平。这就很有意思了——凭什么自我评估比模型自己的“惊讶程度”更可靠？答案可能在于，LLM在自我验证时能调用更多上下文推理，而不仅仅是统计词汇概率。

这对咱们用大模型有什么启发

如果你经常用ChatGPT或Claude写代码、做分析，你会注意到：同一个问题问两次，答案可能差很多。这篇论文的核心思想其实就是在说，不用花钱训练额外模型，只要选对“打分方式+解码策略”，就能显著提升输出的可靠性。比如当你需要模型写一段关键代码时，可以试试让模型先生成几个候选答案，再让它自己评价每个答案的质量——这其实就是self-verification的一种简单应用。

未来路还长着呢

当然，这还只是一个统一视角的理论框架，具体到不同任务、不同规模模型上，最优组合可能还得微调。不过思路挺有意思——既然模型参数里藏着正确答案，那解锁它的钥匙，可能就藏在“分数 × 解码器”这个网格里。你怎么看？

推荐专题

最新下载

热门教程

Score $\times$ Decoder: A Unified View of Unsupervised Inference-Time Scaling fo

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程