Qwen2.5等模型低资源语言安全失效本质为动作失败

时间：2026-06-03 09:04:01 编辑：袖梨来源：一聚教程网

Qwen2.5等模型低资源语言安全失效本质为动作失败

arXiv一篇新论文直接点出了当前多语言大模型的安全漏洞：模型从英语等高资源语言学到的安全对齐能力，到了斯瓦希里语、缅甸语这类低资源语言上就失效了。研究团队剖析了Qwen2.5-7B、Gemma-2-9B和Llama-3.1-8B三款模型在23种语言上的表现，发现问题的根源并非模型理解不了危害——它是不会拒绝，而非不懂拒绝。说白了，模型在低资源语言下的安全失效，本质上是动作失败，而不是表征失败。

什么是“动作失败”？

咱们先拆开看。用英文问模型一个有害问题，模型会拒绝回答；可一旦把同样的问题翻译成斯瓦希里语，它反而有问必答。这难道是因为模型听不懂斯瓦希里语里的危害吗？论文指出，从高资源语言的激活向量中提取出的“危害性方向”，几乎能线性地把低资源语言里的有害提示和无害提示区分开——模型能识别危害，仅仅是动作层面出了岔子。就像一个人知道眼前是悬崖，腿却不听使唤迈了出去，能怪他不懂危险吗？

三款模型无一幸免

研究人员用自适应干预方法AdaSteer和CAST去调整模型行为，结果这些方法也继承了跨语言的失效特性。无论是Qwen2.5-7B还是Gemma-2-9B、Llama-3.1-8B，在23种语言的测试集里都出现了同样的模式：高资源语言上规规矩矩，低资源语言上敞开了大门。这个模式挺吓人的——模型的安全防线不是整体崩塌，而是成片地溃于少数语言，给人的感觉就像是保安认得护照上所有英文签名，却对斯瓦希里语签发的警告信视而不见。

跨语言安全迁移为何失败？

问题出在了哪里？论文团队诊断了迁移断裂的确切位置。模型在高资源语言里构建的安全表征（哪些请求危险、哪些安全）其实能泛化到低资源语言，但执行拒绝动作的功能模块在低资源语言场景下根本不被触发。这就意味着，安全对齐的训练数据里低资源语言样本太少，模型没有学会在这些语言上启动“拒绝”这个动作。补救思路也很清晰：不是要去增强模型识别危害的能力（它本来就能识别），而是要迫使它在低资源语言下也产生“拒绝”的行为输出。想靠传统的微调来修补，恐怕得从根本上改变动作生成路径。

安全对齐的进化该换方向了

过去大家总盯着模型能不能看懂有害内容，现在这篇论文提醒我们，看懂不等于做对。动作失败这种模式在人类身上也常见：你明明知道闯红灯危险，赶时间时还是迈出了脚。对于部署在数十种语言环境中的模型来说，这种“知道但不管”的故障带来的风险是实打实的。既然现有方法连跨语言迁移都搞不定，那么新的安全对齐框架或许应该把更多精力放在“如何让拒绝动作在不同语言里稳定唤起”上。不然，低资源语言永远会是安全防线上的后门。没错，问题的核心就一句话：不是不懂，是不做。

推荐专题

最新下载

热门教程

Qwen2.5等模型低资源语言安全失效本质为动作失败

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程