KVM：可扩展块循环压缩记忆的线性复杂度Transformer

时间：2026-05-30 12:42:02 编辑：袖梨来源：一聚教程网

研究人员提出KVM架构，实现线性复杂度Transformer与可扩展块循环压缩记忆

日前公开的arXiv论文（编号2605.09877v2）介绍了Key-Value Means（KVM），一种新颖的块循环注意力机制。KVM的核心在于它能兼容固定大小或增长状态，这让标准Transformer在配备固定大小KVM注意力层后，能变成强力的O(N)复杂度块循环RNN，新增参数却微乎其微。凭什么说它靠谱？因为实验数据就摆在那里。

KVM如何实现线性复杂度与状态压缩？

传统块循环注意力在处理极长序列时，内存消耗往往随序列长度快速增长。KVM通过可扩展的块循环压缩记忆，将注意力计算复杂度控制在O(N)。其实它的设计思路挺直接：将历史信息压缩成固定大小的键值状态块，并在当前计算中循环引用。这就避免了二次方复杂度对长序列的拖累。

研究者还训练了带有可增长KVM缓存的Transformer模型。在长上下文测试中，它的预填充时间仅为次二次方，状态增长也是亚线性的。这意味着处理超长文档或长时间对话时，模型能保持较低的资源占用。为什么能做到？因为KVM只在必要时扩展缓存，而不是全量重算。

KVM的实用性与标准操作实现

KVM架构可以直接用标准操作实现，不需要定制硬件或特殊算子。这降低了它在现有AI推理框架中的部署门槛。对比那些依赖自定义CUDA内核的复杂注意力变体，KVM的可移植性确实更高。开发者只要在现有Transformer模型中替换几层注意力，就能获得线性的处理能力，同时维持住强基线的性能表现。

论文将KVM描述为“带有可扩展块循环压缩记忆的Transformer”，这真实反映了其技术路径：不是推翻Transformer，而是用循环记忆补全它。测试结果显示，KVM在长上下文基准上具有竞争力，且预填充和状态增长均低于二次方。这证明了块循环压缩记忆方案在实用场景中的价值。

可以说，KVM为长序列建模提供了新的优化方向。它兼具RNN的高效状态重用和Transformer的并行训练优势，同时保持了实现简洁性。随着AI行业对长上下文处理的需求不断提升，这种用标准操作实现的线性复杂度方案，正在成为值得关注的实用选择。

推荐专题

最新下载

热门教程

KVM：可扩展块循环压缩记忆的线性复杂度Transformer

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程