大模型跨实例注意力重分配：移动查询而非缓存

时间：2026-06-03 10:12:01 编辑：袖梨来源：一聚教程网

一篇来自arXiv的论文提出了大模型跨实例注意力重分配的新思路：移动查询，而非缓存。这项研究揭示了一个在代理工作负载下越来越常见的问题——当大型代码库超出一块GPU的承载能力，被分散到多个实例时，一个查询所选的KV-cache块经常和它不在同一个地方。传统的跨实例KV系统会选择移动缓存，但论文认为，移动查询才是更聪明的做法。

为什么之前大家都默认搬缓存呢？因为缓存块看似是更稳定的存储单元，但移动它们需要拉取大量数据，这真的高效吗？其实，移动查询的逻辑挺直白的：把查询当作会动的信使，让它自己去找缓存块，而不是把沉重的行李拖过来。没错，这种方式对于那些多次复用相同缓存块的场景，比如多个子代理查询同一个大型代码库，优势尤为明显。

大模型现在越来越依赖稀疏注意力索引器，每个查询由索引器挑选几个KV-cache块作为注意力单元。当这些块分布在多个GPU实例上时，移动查询就能让计算本地化，减少跨实例的数据搬移。可以说，这就避免了在多个GPU之间来回搬运大量缓存块的开销，不仅节省带宽，还能降低延迟。

这种重分配方式具体怎么操作呢？步骤其实很简单：

首先，查询被分发到某个GPU实例上
然后，稀疏注意力索引器分析查询内容，挑选出相关的KV-cache块
如果挑选的块在其他实例上，查询会被转发过去，而不是把块搬过来
最后，注意力计算在目标实例本地完成

整个过程省掉了批量转移缓存块的步骤，让跨实例的注意力计算变得更轻快。咱们想想，代理工作负载里一个查询可能反复用到同样的块，这效率提升可不是一星半点。

说白了，这项研究就是在挑战一个惯性思维：当查询和缓存块不在同一个地方时，为什么非要搬家（移动缓存）而不是让查询去找房子（移动查询）呢？移动查询确实避免了大量数据传输，这对于需要跨实例处理大规模代码库的代理场景来说，算是一个挺实在的优化方向。

这无疑为大模型的多实例扩展提供了一个新思路！随着AI应用越来越复杂，单块GPU总是不够用的，跨实例分配注意力将会越来越普遍。移动查询而不是缓存，这个反直觉的方法，也许正是未来大规模推理系统的关键拼图。

推荐专题

最新下载

热门教程

大模型跨实例注意力重分配：移动查询而非缓存

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程