一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

RAFT数据精炼与自适应蒸馏:缓解领域微调中的能力遗忘

时间:2026-06-03 11:02:01 编辑:袖梨 来源:一聚教程网

ArXiv 近日上线一篇编号 2606.00147 的论文,提出 RAFT 数据精炼与自适应蒸馏 方法,目标正是缓解领域微调中的能力遗忘问题。作者指出,当模型在特定领域做有监督微调时,虽能提升该领域表现,却往往以损失通用能力为代价。RAFT 这个名字本身就暗示了它的核心思路:用数据精炼和自适应蒸馏来守住模型最初的“底子”。

为什么微调会导致能力下降?论文把原因拆成两个实际性的缺口。第一个叫监督兼容性差距 —— 领域微调用的标注数据,其风格和推理格式跟模型原本自然生成的回答差得挺远。说白了,强迫模型去学一套“异域”的表达方式,它自然就容易忘掉自己原本的习惯。第二个缺口叫轨迹保持差距,这又是什么?

轨迹保持差距指的是:教师强制型微调(teacher-forced SFT)只盯着固定的目标 token 去优化,却没有约束模型在自己生成的连续前缀上的行为。模型在训练时每一步都看到正确答案,可一到推理时它得自己走下一步,路径一旦歪了,之前学的那套通用本领就跟着跑偏。这就好比学车时教练一直帮你扶着方向盘,你自己上路能不慌吗?

RAFT 数据精炼与自适应蒸馏 正是针对这两个缺口设计。数据精炼这一步,意在把领域数据“洗”成跟模型原始管理模式更兼容的形式,缩小监督兼容性差距。自适应蒸馏则让模型在学习新任务的同时,通过蒸馏损失拉住它原有的行为轨迹,避免在自生成前缀上失控。两招组合,既能把新知识装进来,又尽量不丢掉老本事。

说起来,领域微调中的能力遗忘在业内一直是个硬骨头。不少团队尝试过用重放、正则化或知识蒸馏来缓解,但效果往往不稳定。RAFT 的独特之处在于它同时处理了“数据风格别扭”和“训练路径偏离”两层问题,而非只堵一个漏洞。那么,这种方法在通用基准上的表现究竟有没有说的那么好?

论文在多个领域微调任务上做了实验,结果显示 RAFT 相比标准 SFT 和现有蒸馏方法,确实在保持通用能力的同时,领域精度也没落下。当然了,这还只是单篇工作,是否能在更大规模模型上重复,仍需更多验证。不过至少它给社区提供了一个很实在的思路:别光顾着灌数据,得想想怎么喂数据才不会让模型“失忆”。

热门栏目