一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

ERUF框架:基于激活签名从抑制到实体签名擦除的表示遗忘

时间:2026-05-29 18:51:01 编辑:袖梨 来源:一聚教程网

ERUF框架:基于激活签名从抑制到实体签名擦除的表示遗忘

日前,一项名为ERUF(实体表示遗忘框架)的研究成果正式发布,该框架通过挖掘目标实体特有的激活签名来实现从抑制到实体签名擦除的表示遗忘。这篇来自arXiv编号2601.10566v5的论文彻底改变了行业对实体级遗忘的认知——实体级别的遗忘,光看输出够吗?传统方法仅检查模型“说了什么”,比如它是否不再提及目标名称、是否拒绝回答,抑或是改变了真相比例分布,但这些输出层的测试实际上无法衡量模型内部表征是否被真正削弱。

ERUF的突破口在于,它引入了“表示感知”的核心理念。具体怎么做到的?框架会先挖掘特定于目标实体的激活签名,找到模型内部与该实体强相关的神经元激活模式。大家知道,这挺有意思的是,它并不是直接暴力删除参数,而是抑制对应的激活方向,然后把这个行为蒸馏到LoRA参数中。其实,这就好比咱们要遗忘一件事,不光嘴上说忘了,还要从记忆根源上把那个念头给压制住。

传统的实体级遗忘评估方法,真的靠谱吗?为什么只盯着输出层?这就像只通过一个人的言论来判断他的内心想法,结果自然很片面。ERUF正是抓住了这个核心痛点:真正的表示遗忘,必须从模型内部神经元层面进行验证。框架通过激活签名这一创新手段,精确锁定了模型表示中与目标实体相关的路径,实现了从“表面抑制”到“实体签名擦除”的跨越。

没错,这项框架的设计逻辑相当严谨。它首先通过数据驱动的方式挖掘出那些代表特定实体的激活签名,这些签名就像是模型内部的身份指纹。接着,ERUF会对这些签名所对应的激活方向实施抑制,最后将这一过程转化为轻量级的LoRA参数。目前,与各类基线方法的对比评估正在进行中,初期结果显示,这种表示感知的方法在保持模型通用能力的前提下,遗忘效果确实更彻底。

这对于大模型隐私合规领域来说,可不就是一次关键突破吗?当前业内普遍依赖输入输出级别的过滤手段,但这些方法很难应对对抗性攻击。如果某个已被“遗忘”的实体,其内部表征依然存在,攻击者完全可以利用这些残留的激活路径来重新唤起模型的知识。ERUF从架构层面直接切断这种风险——实体签名被擦除后,模型不再是“假装忘记”,而是真的从神经元层面丧失了关联能力。

热门栏目