大模型推理时漏洞：短标记注入可改变任意步安全对齐

时间：2026-06-04 14:08:01 编辑：袖梨来源：一聚教程网

arXiv上最新发布的一项研究（编号2606.04778）揭示，大模型在推理时存在一种比“浅层安全”更隐蔽的漏洞：短标记注入可以在任意生成步骤改变模型的安全对齐行为。这意味着，即使模型在生成内容前几轮通过了安全审查，后续仍可能被恶意操控。

浅层安全与深度漏洞

此前学界认为，大模型的安全对齐主要集中在输出文本的前几个token（字符块），一旦绕过这个“守门员”，后面就容易跑偏。但新研究发现，这其实只是冰山一角。恶意用户只要在模型生成过程中的任意步骤插入一个短标记，就能让后续的内容脱离安全轨道。这就好比一条生产线，原本只在开头设了质检，现在发现中间任何环节都可能被塞进“次品”，影响最终成品。

隐藏状态也无法预测

更让人意外的是，模型隐藏状态下与“拒绝回答”方向的对齐程度，并不能作为安全行为的可靠指标。也就是说，即使模型内部看起来正在“拒绝”，实际输出的内容却可能已经跑偏了。这颠覆了以往靠监测内部状态来判断安全性的思路，确实让人挺头疼的。

这漏洞意味着什么？

攻击效率大幅提升：不需要复杂的长文本诱导，一个短标记就能“劫持”后续的所有输出。
防护难度升级：因为漏洞存在于推理过程中的任意位置，静态的输入过滤或前几轮的审查根本防不住。
现有安全机制受质疑：那些依赖“浅层安全”假设的模型，其实并不安全。谁能保证在生成到第50句时不被一个“门禁卡”撬开呢？

后续影响

研究团队认为，真正的安全对齐需要覆盖整个生成过程，而非仅仅“看门”。未来的模型架构或许要加入动态安全校验机制，就像每艘船上都配救生艇，而不是只在港口设安检。但在此之前，部署了这类模型的开发者得留个心眼：别以为模型开头说“不”，后面就真的会一直说“不”。它真的能抵御所有攻击吗？答案恐怕是否定的。

推荐专题

最新下载

热门教程

大模型推理时漏洞：短标记注入可改变任意步安全对齐

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程