BudgetDraft提出接受感知多视图训练，实现稀疏KV投机解码

时间：2026-06-03 10:48:01 编辑：袖梨来源：一聚教程网

BudgetDraft提出接受感知多视图训练，实现稀疏KV投机解码

BudgetDraft提出一种名为接受感知多视图训练的方法，专为稀疏KV投机解码而设计。这项研究瞄准的是资源受限环境下大模型推理的加速问题——说白了，就是让AI在显存有限的设备上也能跑得快。简单来说，它让起草者在训练时就学会应对稀疏KV缓存，从而在推理时获得更高接受率。

先聊聊背景：投机解码（Speculative Decoding）是一种加速技术，用一个轻量级的起草者模型快速生成多个候选词，再交给验证者模型并行验证。为了省显存，起草者通常使用稀疏KV缓存（只保留部分重要信息），而验证者用完整KV缓存。这样一来，峰值GPU内存和端到端延迟都能控制在固定预算内。不过，当上下文变长时，问题就暴露了。

随着上下文长度增长到4K甚至16K，朴素方法的毛病就露出来了：稀疏KV缓存和完整缓存之间的不匹配越来越严重，接受率直线下降。你可能会问，这算什么大问题？实际上，接受率低了，加速效果就没了，等于白忙活。

BudgetDraft的接受感知多视图训练正是为了给这个痛点开药方。它通过多视图训练让起草者学会感知验证者的接受行为——也就是说，训练过程中让起草者看到来自多个视角的反馈，从而在稀疏KV条件下也能输出验证者喜欢的token序列。这确实挺巧妙的。相比之下，传统方法没有这种感知能力，接受率自然上不去。

具体做法包括两个核心步骤：

多视图损失函数：让起草者在训练中模拟完整KV缓存下的概率分布，缩小与验证者的差距。这样起草者就能更好地预测验证者的分布。
接受感知机制：让起草者实时感知验证者的接受模式，动态调整候选词生成策略，提高接受率。从而让每个提议都更可能被接受。

目前该工作以预印本形式公布在arXiv上（编号2606.00144）。对于在手机、边缘设备等资源受限硬部署AI的场景，这无疑是一个值得关注的方向。毕竟，谁不想让大模型在自家小设备上也能流畅运行呢？

推荐专题

最新下载

热门教程

BudgetDraft提出接受感知多视图训练，实现稀疏KV投机解码

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程