一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

摆脱“长文本焦虑”:小红书_RedKnot_推理引擎开源:长上下文处理效率翻倍

时间:2026-07-02 08:30:58 编辑:袖梨 来源:一聚教程网

在生成式AI的实际落地过程中,模型面对超长文本时如何兼顾推理速度与资源消耗,始终是工程实践中的一大挑战。近期,小红书技术团队正式对外开源其自研推理引擎——RedKnot,为长上下文场景提供了一套兼具高性能与高性价比的解决方案。

RedKnot 的关键突破在于重构了传统 KV Cache(键值缓存)的组织方式。过去主流做法以 token 为单位缓存注意力状态,导致长文本下内存占用随长度线性攀升,严重制约吞吐量与响应时效。RedKnot 则转向以注意力头(Attention Head)为基本单元进行缓存划分,并融合“头分类稀疏化”、“稀疏前馈网络(FFN)”及“SegPagedAttention”三项核心技术,使算法设计与内存管理粒度达成深度协同。

该架构革新带来了可观的性能跃升。实测表明,在配备 8 张 H800 GPU 的集群中,RedKnot 可将首字生成延迟(TTFT)缩短至原方案的 1/1.6~1/3.54,单卡并发请求能力提升达 4.7~7.8 倍;预填充阶段的计算开销(FLOPs)降低幅度高达 67%~79.5%。以 DeepSeek-V4-Flash 模型运行 128K 上下文任务为例,其首字响应速度提升 5.16 倍,KV 缓存数据传输效率提高 6.3 倍,同时推理精度稳定维持在稠密模型基准的 95% 以上。

业界观点指出,RedKnot 的开源不仅释放了前沿推理优化思路,更在算力日趋紧张的现实约束下,验证了一条通过底层缓存结构精细化重构来缓解长文本瓶颈的有效路径。此举有望加速轻量化、高效率 AI 推理系统的规模化部署。目前,项目全部代码已面向社区开放,助力长文本大模型应用进一步走向实用化与普及化。

热门栏目