Kimi K25/DSR1模型新增TOKENSPEED_MLA注意力后端加速

时间：2026-05-30 18:15:01 编辑：袖梨来源：一聚教程网

Kimi K25/DSR1模型新增TOKENSPEED_MLA注意力后端加速，开源项目SGLang在最新发布的v0.21.0rc3版本中正式引入了这一实验性支持。这次更新明确标注为“MLA Attention Backend”类别的扩展，开发者可以通过选择TOKENSPEED_MLA后端来调用该加速能力。其实这一改动挺关键的，因为DSR1和Kimi K25模型对长文本推理的算力需求一直是个痛点，新的后端专门针对MLA（多头潜在注意力）机制做了优化，试图在内存效率和计算速度上找到平衡。

MLA注意力机制原本的瓶颈在哪？传统的注意力计算在处理超长序列时，键值缓存的开销会随着长度线性增长，这直接拖慢了推理速度。SGLang团队想解决这个问题，他们给DSR1和Kimi K25模型套上的TOKENSPEED_MLA后端，本质上是重新设计了缓存调度方式——把KV块切得更细、复用率提得更高。按理说这种底层改动风险不小，但开源社区的反应很快，v0.21.0rc3发布后已经有开发者开始跑benchmark了。

咱们来看看这个后端的实际意义。它能降低模型在长对话或大文档分析中的显存占用，这就让单卡跑更大上下文成为可能。为什么这么说？因为MLA注意力本身就比标准的多头注意力更省显存，TOKENSPEED后端又把“如何高效搬运数据”这个问题拆得更细，比如按token粒度动态调整预填充策略。目前社区里讨论最多的是它对128K以上长度的文本处理是否有明显提升，这点还需要更多实测数据。

SGLang这个项目本身也是加速利器吗？没错，它专攻大语言模型的推理服务，这次给DSR1和Kimi K25加TOKENSPEED_MLA后端，算是补上了自家生态里关键的一环。其实开发者们挺矛盾的——既要能用上最新模型，又不想被专有框架绑定。v0.21.0rc3直接把支持写进了主干代码，意味着后续稳定版本大概率会默认集成这个后端。这就省去了用户自己改内核的麻烦，确实挺省心的。

从行业角度看，MLA注意力后端的开源化会加快国产模型落地。Kimi K25和DSR1一前一后出现在同一个补丁里，说明它们的架构对MLA优化有天然适配性。相比之下，那些依赖自定义CUDA内核的模型就没这么幸运了——每次更新都要重新调优。所以说，开源项目的通用性在降低门槛这件事上作用很大。

推荐专题

最新下载

热门教程

Kimi K25/DSR1模型新增TOKENSPEED_MLA注意力后端加速

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程