最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
大模型推理时漏洞:短标记注入可改变任意步安全对齐
时间:2026-06-04 14:08:01 编辑:袖梨 来源:一聚教程网
arXiv上最新发布的一项研究(编号2606.04778)揭示,大模型在推理时存在一种比“浅层安全”更隐蔽的漏洞:短标记注入可以在任意生成步骤改变模型的安全对齐行为。这意味着,即使模型在生成内容前几轮通过了安全审查,后续仍可能被恶意操控。
浅层安全与深度漏洞

此前学界认为,大模型的安全对齐主要集中在输出文本的前几个token(字符块),一旦绕过这个“守门员”,后面就容易跑偏。但新研究发现,这其实只是冰山一角。恶意用户只要在模型生成过程中的任意步骤插入一个短标记,就能让后续的内容脱离安全轨道。这就好比一条生产线,原本只在开头设了质检,现在发现中间任何环节都可能被塞进“次品”,影响最终成品。
隐藏状态也无法预测
更让人意外的是,模型隐藏状态下与“拒绝回答”方向的对齐程度,并不能作为安全行为的可靠指标。也就是说,即使模型内部看起来正在“拒绝”,实际输出的内容却可能已经跑偏了。这颠覆了以往靠监测内部状态来判断安全性的思路,确实让人挺头疼的。
这漏洞意味着什么?
- 攻击效率大幅提升:不需要复杂的长文本诱导,一个短标记就能“劫持”后续的所有输出。
- 防护难度升级:因为漏洞存在于推理过程中的任意位置,静态的输入过滤或前几轮的审查根本防不住。
- 现有安全机制受质疑:那些依赖“浅层安全”假设的模型,其实并不安全。谁能保证在生成到第50句时不被一个“门禁卡”撬开呢?
后续影响
研究团队认为,真正的安全对齐需要覆盖整个生成过程,而非仅仅“看门”。未来的模型架构或许要加入动态安全校验机制,就像每艘船上都配救生艇,而不是只在港口设安检。但在此之前,部署了这类模型的开发者得留个心眼:别以为模型开头说“不”,后面就真的会一直说“不”。它真的能抵御所有攻击吗?答案恐怕是否定的。
相关文章
- OpenAI API Key 怎么获取?这5个坑新手必看 06-04
- 好课在线app如何查看课程 06-04
- 2026天猫双十一大促活动 - 全网热门购物节攻略 06-04
- OpenAI 官网进入怎么找不到?2026实测入口避坑 06-04
- 《雷曼传奇 Retold》因Barbara暴露程度降低遭受批评 06-04
- OpenAI API Key 充值怎么操作?3步轻松完成 06-04