SANTA 方法：随机稀疏注意力加速内存受限自回归推理

时间：2026-06-04 12:56:01 编辑：袖梨来源：一聚教程网

SANTA方法：随机稀疏注意力加速内存受限自归回推理，带宽瓶颈找到了新解法

日前，一项名为SANTA（随机加法免乘注意力）的方法在AI社区引发关注。该方法直接针对大语言模型处理长文本时的“内存墙”问题提出了新思路——通过随机稀疏注意力来加速自回归推理。说白了，当模型生成一个词都要读一遍所有的缓存数据时，谁办法让这个“读取”过程变快、变轻，谁就找到了破局点。

长上下文的带宽瓶颈有多“痛”？

自回归解码（逐个生成词）有个老大难问题：上下文越长，带宽越吃紧。因为每生成一个token，都得把键值缓存里那 n_k 个键向量和值向量全部读一次。这就像一群人挤在一个小门前面，人越多，进出就越慢。没错，真正的瓶颈不在计算，在于内存搬运。SANTA方法：用“抓阄”代替“全读”

这次提出的SANTA方法，核心逻辑其实挺直白：与其把整张注意力分布算完，不如从softmax之后的分布里随机采样出 S （远小于 n_k ）个索引，然后只把这些索引对应的值行拿出来求和。这就好比考试时老师从全班50个学生里随机挑8个同学的作文来批改，而不是把所有人的统统看一遍。采样过程本身很快，而且结果在数学上被证明是理论无偏的——也就是说，长期来看，它跟完整计算得到的期望值是一致的。

加法和gather操作彻底改变了算力架构

更精妙的一点是，SANTA把原本的值阶段乘积累加运算，彻底替换成了“gather-and-add”（收集并加法）。这可不是小打小闹的优化：乘法器比加法器贵得多，而且专用的gather硬件在越来越多AI加速芯片上已经普及。凭什么非得做矩阵乘法？换成地址查表和累加不行吗？SANTA的回答就是：行，而且效果不错。这其实让内存受限场景下的推理功耗和延迟都有了下降空间。

无偏估计与系统化采样是如何保障效果的？

研究者还在SANTA里引入了分层抽样和系统采样策略，避免随机采样漏掉关键信息。你可能会问：随机挑会不会丢重点？实际上，在注意力分布已经非常集中（比如大部分权重落在少数几个位置）的长上下文场景里，随机挑这些高权重位置的概率相当高，再加上分层策略的兜底，整体估算的稳定性确实有保障。这是让“近似计算不会坍缩”的关键设计，算是把概率论的底气发挥了出来。

推荐专题

最新下载

热门教程

SANTA 方法：随机稀疏注意力加速内存受限自回归推理

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程