一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

KVM:可扩展块循环压缩记忆的线性复杂度Transformer

时间:2026-05-30 12:42:02 编辑:袖梨 来源:一聚教程网

研究人员提出KVM架构,实现线性复杂度Transformer与可扩展块循环压缩记忆

日前公开的arXiv论文(编号2605.09877v2)介绍了Key-Value Means(KVM),一种新颖的块循环注意力机制。KVM的核心在于它能兼容固定大小或增长状态,这让标准Transformer在配备固定大小KVM注意力层后,能变成强力的O(N)复杂度块循环RNN,新增参数却微乎其微。凭什么说它靠谱?因为实验数据就摆在那里。

KVM如何实现线性复杂度与状态压缩?

传统块循环注意力在处理极长序列时,内存消耗往往随序列长度快速增长。KVM通过可扩展的块循环压缩记忆,将注意力计算复杂度控制在O(N)。其实它的设计思路挺直接:将历史信息压缩成固定大小的键值状态块,并在当前计算中循环引用。这就避免了二次方复杂度对长序列的拖累。

研究者还训练了带有可增长KVM缓存的Transformer模型。在长上下文测试中,它的预填充时间仅为次二次方,状态增长也是亚线性的。这意味着处理超长文档或长时间对话时,模型能保持较低的资源占用。为什么能做到?因为KVM只在必要时扩展缓存,而不是全量重算。

KVM的实用性与标准操作实现

KVM架构可以直接用标准操作实现,不需要定制硬件或特殊算子。这降低了它在现有AI推理框架中的部署门槛。对比那些依赖自定义CUDA内核的复杂注意力变体,KVM的可移植性确实更高。开发者只要在现有Transformer模型中替换几层注意力,就能获得线性的处理能力,同时维持住强基线的性能表现。

论文将KVM描述为“带有可扩展块循环压缩记忆的Transformer”,这真实反映了其技术路径:不是推翻Transformer,而是用循环记忆补全它。测试结果显示,KVM在长上下文基准上具有竞争力,且预填充和状态增长均低于二次方。这证明了块循环压缩记忆方案在实用场景中的价值。

可以说,KVM为长序列建模提供了新的优化方向。它兼具RNN的高效状态重用和Transformer的并行训练优势,同时保持了实现简洁性。随着AI行业对长上下文处理的需求不断提升,这种用标准操作实现的线性复杂度方案,正在成为值得关注的实用选择。

热门栏目