最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
Qwen2.5等模型低资源语言安全失效本质为动作失败
时间:2026-06-03 09:04:01 编辑:袖梨 来源:一聚教程网
Qwen2.5等模型低资源语言安全失效本质为动作失败
arXiv一篇新论文直接点出了当前多语言大模型的安全漏洞:模型从英语等高资源语言学到的安全对齐能力,到了斯瓦希里语、缅甸语这类低资源语言上就失效了。研究团队剖析了Qwen2.5-7B、Gemma-2-9B和Llama-3.1-8B三款模型在23种语言上的表现,发现问题的根源并非模型理解不了危害——它是不会拒绝,而非不懂拒绝。说白了,模型在低资源语言下的安全失效,本质上是动作失败,而不是表征失败。

什么是“动作失败”?
咱们先拆开看。用英文问模型一个有害问题,模型会拒绝回答;可一旦把同样的问题翻译成斯瓦希里语,它反而有问必答。这难道是因为模型听不懂斯瓦希里语里的危害吗?论文指出,从高资源语言的激活向量中提取出的“危害性方向”,几乎能线性地把低资源语言里的有害提示和无害提示区分开——模型能识别危害,仅仅是动作层面出了岔子。就像一个人知道眼前是悬崖,腿却不听使唤迈了出去,能怪他不懂危险吗?

三款模型无一幸免
研究人员用自适应干预方法AdaSteer和CAST去调整模型行为,结果这些方法也继承了跨语言的失效特性。无论是Qwen2.5-7B还是Gemma-2-9B、Llama-3.1-8B,在23种语言的测试集里都出现了同样的模式:高资源语言上规规矩矩,低资源语言上敞开了大门。这个模式挺吓人的——模型的安全防线不是整体崩塌,而是成片地溃于少数语言,给人的感觉就像是保安认得护照上所有英文签名,却对斯瓦希里语签发的警告信视而不见。
跨语言安全迁移为何失败?
问题出在了哪里?论文团队诊断了迁移断裂的确切位置。模型在高资源语言里构建的安全表征(哪些请求危险、哪些安全)其实能泛化到低资源语言,但执行拒绝动作的功能模块在低资源语言场景下根本不被触发。这就意味着,安全对齐的训练数据里低资源语言样本太少,模型没有学会在这些语言上启动“拒绝”这个动作。补救思路也很清晰:不是要去增强模型识别危害的能力(它本来就能识别),而是要迫使它在低资源语言下也产生“拒绝”的行为输出。想靠传统的微调来修补,恐怕得从根本上改变动作生成路径。
安全对齐的进化该换方向了
过去大家总盯着模型能不能看懂有害内容,现在这篇论文提醒我们,看懂不等于做对。动作失败这种模式在人类身上也常见:你明明知道闯红灯危险,赶时间时还是迈出了脚。对于部署在数十种语言环境中的模型来说,这种“知道但不管”的故障带来的风险是实打实的。既然现有方法连跨语言迁移都搞不定,那么新的安全对齐框架或许应该把更多精力放在“如何让拒绝动作在不同语言里稳定唤起”上。不然,低资源语言永远会是安全防线上的后门。没错,问题的核心就一句话:不是不懂,是不做。
相关文章
- premiere中如何调整水平捕捉视图角度 06-03
- 妖精动漫网页版官网登录入口 妖精动漫手机版主页在线观看 06-03
- 星露谷物语蓝爵获取方法_蓝爵生长季节与实用功能全解析 06-03
- eMoT:符号锚定与记忆腐蚀驱动LLM思维记忆进化 06-03
- 星痕共鸣公测何时开启 06-03
- 赛尔号小莹蜂捕捉地点详解-小莹蜂获取方法指南 06-03