最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
EvoCut:多层演化感知视觉令牌压缩,高效LVLM推理
时间:2026-06-02 20:36:01 编辑:袖梨 来源:一聚教程网
EvoCut:多层演化感知视觉令牌压缩,高效LVLM推理
日前,一篇题为 EvoCut: Multi-Layer Evolution-Aware Visual Token Compression for Efficient Large Vision-Language Models 的论文在 arXiv 上公开,直击大型视觉‑语言模型(LVLM)的推理瓶颈。这类模型看图像、视频挺厉害,但视觉编码器会产出大量视觉令牌,导致计算慢、显存吃紧。现有压缩手段大多盯着某一层的注意力分数或表示属性来估令牌的重要性——这不就相当于只看一个人的背影判断他重不重要吗?EvoCut 提出的办法很直接:既然视觉令牌在编码器不同层里不断演化,那就追踪它的多层变化,把重要性估得更全,压缩后性能掉得少。

现有方法的盲区在哪?
其实,很多压缩做法都依赖单层信号。比如只看 Transformer 最后几层的注意力权重,或者用特征向量的范数来打分。但视觉令牌在逐层前传时,信息会重组、放大或浓缩,某个层里不起眼的令牌到了深层可能变得关键。反过来,某层高分的令牌可能只是局部噪声。这种“层专属”的评判标准,就像用同一把尺子量不同阶段的孩子身高,误差挺大。这就解释了为什么现有压缩经常丢细节——尤其在复杂场景里,物体边界、文字、小目标最先被砍掉。

EvoCut 怎么做到的?
EvoCut 的全称是“多层演化感知视觉令牌压缩”,核心思路就两步:先建模视觉令牌在编码器各层的演变轨迹,再基于这个轨迹计算综合重要性。具体来说,它对每个令牌在每一层的表示做差异分析,看它从浅层到深层是“稳定贡献”还是“昙花一现”。这种演化感知机制让重要性估计更贴近真实推理需求——那些贯穿全程的令牌才值得保留。论文里没说具体压缩比,但道理摆在这:评估维度越全,选出的令牌越准,后续 LVLM 的视觉理解能力就能保得更好。
为什么非得盯着演化过程?
你可能会问:单层信号不够用,那多看几层不就完了?没错,但简单拼接多层注意力也一样有问题——不同层的分布尺度不同,直接加和会引入偏差。EvoCut 用的是跨层变化量,而不是堆叠绝对值。好比判断一辆车是否省油,你更关心它跑完不同路段的油耗变化,而不是每个路口油箱的剩余量。这种视角切换,真的让令牌压缩从“静态打分”变成了“动态跟踪”。
- 关键点:EvoCut 不依赖任何外部知识或额外数据集,直接在视觉编码器内部做演化建模。
- 优势:压缩后 LVLM 的推理速度能明显提升,同时图像/视频理解准确率下降幅度远小于传统方法。
一句话:当大家都在想怎么“砍令牌”时,EvoCut 先问了“令牌是怎么长的”。这种从演化过程入手的设计,确实让高效 LVLM 推理更靠谱了。