量化KV缓存致注意力偏差，视频扩散模型需偏差校正

时间：2026-05-29 19:09:02 编辑：袖梨来源：一聚教程网

量化KV缓存导致的注意力偏差正在拖累视频扩散模型的表现。这项来自最新预印本研究明确指出了问题的根源——量化压缩后的KV缓存会引发系统性的注意力权重偏移，从而破坏生成视频的质量。也就是说，模型其实不是没能力，而是被自己压缩过的缓存“坑”了。

缓存压缩的代价到底在哪？

分块自回归视频扩散模型在生成更长视频时，会依赖一个KV缓存来存储之前分块的键值对，避免重复计算。但视频越长，缓存占用的内存就越夸张，量化压缩成了最直接的解法——把缓存降到低比特位宽，内存压力确实小了，可视频质量也跟着暴跌。凭什么压缩就得牺牲画质？研究团队发现，背后藏着一个注意力机制的结构性缺陷。

Jensen不等式搞的鬼：偏心的Softmax

原因出在Softmax注意力函数的凸性上。量化引入的噪声经过指数运算后，会不成比例地放大那些已经缓存的键的贡献——这就是所谓的Jensen效应。说白了，量化后的缓存键就像被加了权重，注意力机制不自觉地更“关注”它们，而新鲜生成的内容反而被冷落了。这种偏差是系统性的，并非随机噪声。

注意力权重失衡，旧记忆压过新画面

当量化噪声让缓存的键在Softmax中获取额外分数，模型的注意力分布就不再公平。上一帧的细节被过度强调，当前帧的细节却被稀释，视频里的运动物体可能变得模糊或者跳跃。这种扭曲可不是模型训练时能学会的——它完全是量化操作人为制造出来的“偏见”。

偏差校正：不是修补，是必须动的手术

既然知道了病根，就得开方子。论文指出，需要在量化后的KV缓存上施加偏差校正（bias correction），把被Jensen效应扭曲的注意力权重拉回来。校正方法并不复杂，但确实需要针对量化噪声的统计特性做调整。这提醒咱们：量化不只是压缩工具，它还会改变模型的内部动态，不能简单粗暴地一砍了之。

视频扩散模型的路还长着呢

Quantized Keys Steal Attention——这个标题已经说明了一切。量化偷走了注意力，而视频扩散模型想要真正落地长视频生成，就必须正视这个偏差校正的命题。难道说，未来的压缩算法都得先过Softmax这一关？至少目前看来，答案是肯定的。