RAFT数据精炼与自适应蒸馏：缓解领域微调中的能力遗忘

时间：2026-06-03 11:02:01 编辑：袖梨来源：一聚教程网

ArXiv 近日上线一篇编号 2606.00147 的论文，提出 RAFT 数据精炼与自适应蒸馏 方法，目标正是缓解领域微调中的能力遗忘问题。作者指出，当模型在特定领域做有监督微调时，虽能提升该领域表现，却往往以损失通用能力为代价。RAFT 这个名字本身就暗示了它的核心思路：用数据精炼和自适应蒸馏来守住模型最初的“底子”。

为什么微调会导致能力下降？论文把原因拆成两个实际性的缺口。第一个叫监督兼容性差距 —— 领域微调用的标注数据，其风格和推理格式跟模型原本自然生成的回答差得挺远。说白了，强迫模型去学一套“异域”的表达方式，它自然就容易忘掉自己原本的习惯。第二个缺口叫轨迹保持差距，这又是什么？

轨迹保持差距指的是：教师强制型微调（teacher-forced SFT）只盯着固定的目标 token 去优化，却没有约束模型在自己生成的连续前缀上的行为。模型在训练时每一步都看到正确答案，可一到推理时它得自己走下一步，路径一旦歪了，之前学的那套通用本领就跟着跑偏。这就好比学车时教练一直帮你扶着方向盘，你自己上路能不慌吗？

RAFT 数据精炼与自适应蒸馏 正是针对这两个缺口设计。数据精炼这一步，意在把领域数据“洗”成跟模型原始管理模式更兼容的形式，缩小监督兼容性差距。自适应蒸馏则让模型在学习新任务的同时，通过蒸馏损失拉住它原有的行为轨迹，避免在自生成前缀上失控。两招组合，既能把新知识装进来，又尽量不丢掉老本事。

说起来，领域微调中的能力遗忘在业内一直是个硬骨头。不少团队尝试过用重放、正则化或知识蒸馏来缓解，但效果往往不稳定。RAFT 的独特之处在于它同时处理了“数据风格别扭”和“训练路径偏离”两层问题，而非只堵一个漏洞。那么，这种方法在通用基准上的表现究竟有没有说的那么好？

论文在多个领域微调任务上做了实验，结果显示 RAFT 相比标准 SFT 和现有蒸馏方法，确实在保持通用能力的同时，领域精度也没落下。当然了，这还只是单篇工作，是否能在更大规模模型上重复，仍需更多验证。不过至少它给社区提供了一个很实在的思路：别光顾着灌数据，得想想怎么喂数据才不会让模型“失忆”。

推荐专题

最新下载

热门教程

RAFT数据精炼与自适应蒸馏：缓解领域微调中的能力遗忘

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程