小红书开源的长文本推理加速引擎 - RedKnot

时间：2026-07-01 09:02:58 编辑：袖梨来源：一聚教程网

RedKnot是什么

RedKnot 是小红书开源的长文本 LLM 推理加速引擎，将 KV Cache 按注意力头维度解耦，离线分类为需全局重算的全局头与可局部复用的局部头，配合 SegPagedAttention 实现按头分页存储与融合变长注意力内核，避免 attn_mask 带来的内核惩罚。RedKnot 同时引入稀疏 FFN，对高注意力分数的 token 执行稠密计算，解决短上下文 FFN 瓶颈。

RedKnot的主要功能

头分类稀疏：离线将每个对分类为需全局重算的全局头与可局部复用的局部头，请求间稳定无需在线开销。
位置无关KV复用：支持相同文档片段在非前缀位置出现时复用预计算KV Cache，打破传统前缀匹配限制。
稀疏FFN加速：对注意力得分最高的top-k token执行稠密FFN计算，其余token走残差恒等路径，直接削减短上下文FFN瓶颈。
SegPagedAttention存储：将KV Cache从稠密张量改为按分段的分页存储，物理上只保留每个头真正需要的token。
弹性稀疏恢复：浅层采用保守的局部注意力加稠密FFN保护早期残差流，深层才启用全局头重算与稀疏FFN，平衡精度与效率。
架构无关运行时：通过PROFILE、BUILDSTATE、SELECTVISIBLESTATE、EXECUTE四个适配器接口，统一支持GQA、MoE、MLA等不同注意力架构。

微信关注回复“开源”，加入AI开源项目交流群

RedKnot的技术原理

按头解耦KV Cache：传统系统将KV Cache视为稠密[B,H,L,D]张量，RedKnot发现不同注意力头的有效上下文范围与重要性高度分化，因此沿头维度拆分缓存系统。
头级稀疏替代token级稀疏：token级恢复需取各头重要token的并集导致膨胀，RedKnot改为按头恢复，仅对少数全局头重算，局部头直接复用，避免精度-延迟两难。
FFN与注意力正交优化：短上下文（2–8K）中FFN占TTFT的57–62%，注意力优化无法触及；RedKnot通过注意力信号选择重要token执行FFN，与KV稀疏形成乘法叠加收益。
分页存储消除mask惩罚：稠密布局加attn_mask会禁用FlashAttention快速路径带来4.9–7.6×内核惩罚，SegPagedAttention按头分页并配合融合varlen内核，全程不构造mask。
分层弹性策略：模型浅层局部头占比高、语义选择性弱，保守恢复防止误差传播；深层全局头比例上升、注意力更集中，稀疏策略收益最大且精度损失最小。

如何使用RedKnot

离线画像分类：对目标模型运行 PROFILE 接口，通过 needle-in-a-haystack 测试离线将每个 (layer, head) 对分类为全局头或局部头，生成稳定的 Head Class Map 供后续请求零开销复用。
预构建可复用状态：使用 BUILDSTATE 接口将常用文档片段预计算为 KV Cache，并按头维度分页存入 Global / Local KV Pool，实现位置无关的离线预构造。
动态状态选择：收到在线请求时，通过 SELECTVISIBLESTATE 接口根据查询语义和 Head Class Map，从缓存池中选择需复用的局部头 KV 与需重算的全局头范围。
融合推理执行：调用 EXECUTE 接口，全局头走完整注意力重算并写入 Online KV Cache，局部头直接复用分页 KV 走局部注意力，同时对低分 token 跳过 FFN 计算走残差路径。
服务化部署集成：从 GitHub 仓库 https://github.com/rednote-machine-learning/RedKnot 拉取基于 SGLang 实现的源码，按四大适配器接口规范接入现有推理服务栈可上线。

RedKnot的核心优势

按头解耦的粒度对齐：突破传统 token 级稠密 KV Cache 抽象，将存储、计算与恢复粒度统一到注意力头维度，匹配工作负载真实的按头稀疏结构。
离线画像零在线开销：全局头与局部头的分类在请求间高度稳定，仅需离线一次 profiling，在线运行时直接查表应用，不增加任何推理延迟。
头级恢复替代 token 级恢复：仅对约 12–15% 的全局头重算，85–88% 的局部头直接复用，避免 token 级并集膨胀导致的重算量失控，同时消除级联误差传播。
稀疏 FFN 正交加速：对高注意力分数的 top-k token 执行稠密 FFN，其余走残差路径，直接削减短上下文下占 TTFT 57–62% 的 FFN 瓶颈，与注意力优化形成乘法叠加收益。

RedKnot的项目地址

GitHub仓库：https://github.com/rednote-machine-learning/RedKnot
arXiv技术论文：https://arxiv.org/pdf/2606.06256

RedKnot的同类竞品对比

对比维度RedKnotCacheBlend核心定位按头解耦的 KV Cache 管理系统位置无关的 KV Cache 混合复用系统稀疏粒度按注意力头（head） 解耦，全局头重算、局部头复用按 Token 挑选重算子集，所有头共享同一 token 集合KV 复用范围任意位置（位置无关 PIC）任意位置（非前缀片段）在线开销零（离线一次性 head 画像，请求间复用）有（在线选择 token 子集并混合）FFN 优化稀疏 FFN（仅 top-k 重要 token 计算）无存储布局按头分页（SegPagedAttention），物理稀疏稠密张量 + attn_mask，逻辑稀疏内核效率全程无 attn_mask，FlashAttention 快速路径构造 attn_mask，SDPA 慢路径，4.9–7.6× 内核惩罚浅层恢复浅层保守用局部注意力+稠密 FFN，保护残差流浅层 token 并集膨胀，需重算大量 token精度表现通常 ≥ 稠密基线 F1 的 95%，长文本可反超浅层误差大，精度依赖重算 token 比例

RedKnot的应用场景

RAG 长文档问答：拼接数万检索片段进 prompt，通过位置无关 KV 复用与头级稀疏恢复，将长文本预填充延迟从数十秒降至数秒。
编程 Agent 多轮工具调用：连续调用数十次工具并积累历史上下文，利用稀疏 FFN 直接削减短片段（2–8K）下占 TTFT 过半的 FFN 瓶颈。
长会话记忆系统：将用户记忆、工具输出与历史状态统一纳入长上下文，按头复用使单卡并发从 4 路提升至 30 路以上。
多 Agent 协作框架：多个 Agent 动态交换、重排上下文片段，位置无关 KV 复用打破”必须前缀匹配”的限制，避免重复预填充。
实时流式长文本生成：局部头直接复用近期分页 KV，全局头按需重算，在 128K 上下文下仍保持低首字延迟与高生成稳定性。

推荐专题

最新下载

热门教程

小红书开源的长文本推理加速引擎 - RedKnot

RedKnot是什么

RedKnot的主要功能

RedKnot的技术原理

如何使用RedKnot

RedKnot的核心优势

RedKnot的项目地址

RedKnot的同类竞品对比

RedKnot的应用场景

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程