最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
BudgetDraft提出接受感知多视图训练,实现稀疏KV投机解码
时间:2026-06-03 10:48:01 编辑:袖梨 来源:一聚教程网
BudgetDraft提出接受感知多视图训练,实现稀疏KV投机解码
BudgetDraft提出一种名为接受感知多视图训练的方法,专为稀疏KV投机解码而设计。这项研究瞄准的是资源受限环境下大模型推理的加速问题——说白了,就是让AI在显存有限的设备上也能跑得快。简单来说,它让起草者在训练时就学会应对稀疏KV缓存,从而在推理时获得更高接受率。

先聊聊背景:投机解码(Speculative Decoding)是一种加速技术,用一个轻量级的起草者模型快速生成多个候选词,再交给验证者模型并行验证。为了省显存,起草者通常使用稀疏KV缓存(只保留部分重要信息),而验证者用完整KV缓存。这样一来,峰值GPU内存和端到端延迟都能控制在固定预算内。不过,当上下文变长时,问题就暴露了。
随着上下文长度增长到4K甚至16K,朴素方法的毛病就露出来了:稀疏KV缓存和完整缓存之间的不匹配越来越严重,接受率直线下降。你可能会问,这算什么大问题?实际上,接受率低了,加速效果就没了,等于白忙活。
BudgetDraft的接受感知多视图训练正是为了给这个痛点开药方。它通过多视图训练让起草者学会感知验证者的接受行为——也就是说,训练过程中让起草者看到来自多个视角的反馈,从而在稀疏KV条件下也能输出验证者喜欢的token序列。这确实挺巧妙的。相比之下,传统方法没有这种感知能力,接受率自然上不去。
具体做法包括两个核心步骤:
- 多视图损失函数:让起草者在训练中模拟完整KV缓存下的概率分布,缩小与验证者的差距。这样起草者就能更好地预测验证者的分布。
- 接受感知机制:让起草者实时感知验证者的接受模式,动态调整候选词生成策略,提高接受率。从而让每个提议都更可能被接受。
目前该工作以预印本形式公布在arXiv上(编号2606.00144)。对于在手机、边缘设备等资源受限硬部署AI的场景,这无疑是一个值得关注的方向。毕竟,谁不想让大模型在自家小设备上也能流畅运行呢?
相关文章
- 蓝色星原旅谣:探索游戏内相机功能详解 06-03
- TriLens:逐层Logit透镜熵实现白盒幻觉检测 06-03
- 蓝色星原旅谣首领全介绍 蓝色星原旅谣首领详细一览 06-03
- POIROT:通过智能体审问检测多智能体系统故障 06-03
- 福昕PDF编辑器怎样编辑页眉页脚 06-03
- 小说免费阅读app哪个好用 热门免费小说阅读软件推荐 06-03