一聚教程网:一个值得你收藏的教程网站

热门教程

持续学习视角下正交梯度投影减轻大语言模型对齐税

时间:2026-05-30 12:15:01 编辑:袖梨 来源:一聚教程网

日前,一篇来自arXiv预印本(编号2602.07892)的研究提出,通过持续学习视角下的正交梯度投影方法,可以显著减轻大语言模型的对齐税。该工作将安全后训练看作一个连续学习过程,指出顺序对齐阶段引入的梯度可能与原有通用能力方向产生冲突,从而引发性能下降。研究团队并未声称所有对齐退化都源于单一原因,但正交投影策略有望在保留模型原有效用与提升安全性之间找到平衡。

对齐税到底是什么?简单说,就是模型在做了安全对齐后,通用能力——比如数学推理、常识问答——反而变差了。这其实挺困扰开发者的:你让模型更“听话”,结果它变“笨”了。论文把这种现象正式定义为“对齐税”,并且试图从训练机制上找到解决办法。

为什么用持续学习视角?因为模型的安全训练不是一次完成的,而是分阶段的。每个阶段的数据分布和目标都不一样,梯度更新的方向可能会“忘掉”之前学好的知识。这就像咱们学新技能,如果方向不对,老本领反而会退化。没错,正交梯度投影就是用来“隔离”新旧梯度的——让新梯度只更新不影响旧能力的子空间。

具体来说,该方法在每次安全微调时,先计算当前参数对原有通用能力的梯度方向,然后只沿着与它正交的方向更新参数。这样一来,新知识就不会干扰老知识了。难道这不就是最自然的思路吗?让模型既保持原有智慧,又学会新规矩。

效果如何?论文通过实验验证,正交投影后的模型在安全性和通用性上双双优于传统微调。对齐税几乎被消除,而安全性能没有明显损失。这算是一种“鱼和熊掌兼得”的尝试,至少在大语言模型这个领域,确实值得关注。

当然,该工作也承认,并非所有对齐退化都能用梯度干扰解释,不同数据集、不同任务的影响仍需进一步探索。但至少,它给行业提供了一个新的研究框架:把安全对齐视为持续学习,而不是一次性的“洗脑”操作。

热门栏目