最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
SANTA 方法:随机稀疏注意力加速内存受限自回归推理
时间:2026-06-04 12:56:01 编辑:袖梨 来源:一聚教程网
SANTA方法:随机稀疏注意力加速内存受限自归回推理,带宽瓶颈找到了新解法
日前,一项名为SANTA(随机加法免乘注意力)的方法在AI社区引发关注。该方法直接针对大语言模型处理长文本时的“内存墙”问题提出了新思路——通过随机稀疏注意力来加速自回归推理。说白了,当模型生成一个词都要读一遍所有的缓存数据时,谁办法让这个“读取”过程变快、变轻,谁就找到了破局点。

长上下文的带宽瓶颈有多“痛”?
自回归解码(逐个生成词)有个老大难问题:上下文越长,带宽越吃紧。因为每生成一个token,都得把键值缓存里那 n_k 个键向量和值向量全部读一次。这就像一群人挤在一个小门前面,人越多,进出就越慢。没错,真正的瓶颈不在计算,在于内存搬运。SANTA方法:用“抓阄”代替“全读”
这次提出的SANTA方法,核心逻辑其实挺直白:与其把整张注意力分布算完,不如从softmax之后的分布里随机采样出 S (远小于 n_k )个索引,然后只把这些索引对应的值行拿出来求和。这就好比考试时老师从全班50个学生里随机挑8个同学的作文来批改,而不是把所有人的统统看一遍。采样过程本身很快,而且结果在数学上被证明是理论无偏的——也就是说,长期来看,它跟完整计算得到的期望值是一致的。
加法和gather操作彻底改变了算力架构
更精妙的一点是,SANTA把原本的值阶段乘积累加运算,彻底替换成了“gather-and-add”(收集并加法)。这可不是小打小闹的优化:乘法器比加法器贵得多,而且专用的gather硬件在越来越多AI加速芯片上已经普及。凭什么非得做矩阵乘法?换成地址查表和累加不行吗?SANTA的回答就是:行,而且效果不错。这其实让内存受限场景下的推理功耗和延迟都有了下降空间。
无偏估计与系统化采样是如何保障效果的?
研究者还在SANTA里引入了分层抽样和系统采样策略,避免随机采样漏掉关键信息。你可能会问:随机挑会不会丢重点?实际上,在注意力分布已经非常集中(比如大部分权重落在少数几个位置)的长上下文场景里,随机挑这些高权重位置的概率相当高,再加上分层策略的兜底,整体估算的稳定性确实有保障。这是让“近似计算不会坍缩”的关键设计,算是把概率论的底气发挥了出来。
相关文章
- 和平精英密室地点在哪 06-04
- 《战神:劳菲》正式亮相-全新主角劳菲开启神话冒险新篇章 06-04
- 《流放之路》20.5赛季女猎人榴弹开荒指南-从新手到毕业全流程详解 06-04
- 无畏契约手游夜市如何玩?_无畏契约夜市 06-04
- 中文在线AI短剧Token消耗占比55%居首 06-04
- 魔兽世界骑术训练师在哪里-WOW骑术学习地点汇总_暴风城 06-04