沉默超参数：量化推理后端对大语言模型可重复性的影响

时间：2026-05-31 09:00:02 编辑：袖梨来源：一聚教程网

日前，一项来自arXiv的研究（编号2605.19537）揭示了量化推理后端这类沉默超参数对大语言模型可重复性的深远影响。在标准化基准测试中，模型间的进步往往只有零点几个百分点的差距，这时，推理后端的选择真的只是一个孤立的技术细节吗？

量化推理后端的非确定性冲击

研究指出，为了提升效率，广泛使用的专用推理后端引入了自定义CUDA内核和低精度算术等系统级优化。这些优化虽然让模型跑得更快，却悄悄改变了令牌概率，引入了非确定性。可以说，可重复性的大敌并不总是模型本身，而是被设计成“沉默”的推理后端。

沉默超参数如何左右基准分数

量化推理后端，作为模型部署的关键环节，其影响长期被学术基准所忽视。但事实上，不同后端之间哪怕微小的概率偏移，累积起来就足以让结果失去可比性。这确实是一个挺要命的问题——如果仅因后端不同，同一模型的得分就飘忽不定，那高分背后有多少是运气成分？凭什么叫它“SOTA”？

我们真的在测量大语言模型的能力吗？

当研究社区花大量精力优化模型架构时，量化推理后端的选择却像一颗隐形的螺丝钉，稍微拧紧一点，测出的分数可能就完全不一样了。咱们在追求顶尖性能的路上，是否太过依赖标准基准而忽略了这些工程细节？沉默超参数的影响力，可比想象中大得多。

可重复性的新标准：标注推理后端

这项发现提醒我们，未来在报告大语言模型性能时，必须注明所用的推理后端版本和配置。否则，所谓的“可重复性”恐怕只是一句空话。没错，量化推理后端正是那个影响大语言模型可重复性的沉默超参数，它需要被正视，而不是继续隐身。