最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
vLLM v0.22.1集成JetBrains Mellum v2并优化AMD Zen CPU量化推理
时间:2026-06-07 09:48:02 编辑:袖梨 来源:一聚教程网
vLLM 团队于日前发布 v0.22.1 版本,该补丁版本在 v0.22.0 基础上新增 JetBrains Mellum v2 模型支持,并引入 zentorch 加速的 AMD Zen CPU 量化推理优化,同时修复多节点 Ray 数据并行服务、DeepSeek‑V4 初始化等 bug。vLLM 是一个高性能大语言模型推理引擎,此次更新让用户能在 AMD Zen 架构 CPU 上通过量化推理获得更快的线性计算速度,同时扩大了对开放权重模型的兼容范围。
新模型支持:JetBrains Mellum v2

v0.22.1 集成了 JetBrains 推出的 Mellum v2 模型。该模型属于开放权重架构,开发者可在本地部署,无需依赖第三方 API。vLLM 团队将其直接纳入模型支持列表,意味着用户只需指定模型名称即可加载 Mellum v2,无需额外手动配置。这对偏好私有化部署的团队来说是一个实用更新。
AMD Zen CPU 量化推理优化
本次更新重点优化了 AMD Zen CPU 上的量化线性推理。通过集成 zentorch 加速库,vLLM 在 AMD Zen 系列处理器上对量化后的线性层计算做了针对性调优。量化推理可将模型权重从浮点数压缩为低比特整数,大幅减少内存带宽需求,在 CPU 环境下尤其能提升吞吐量。zentorch 是专为 AMD 平台优化的计算库,此次整合使得 vLLM 用户无需额外安装驱动即可在 AMD CPU 上获得更好的推理性能。
其他修复与版本信息
v0.22.1 还修复了多节点 Ray 数据并行服务中的若干问题,并解决了 DeepSeek‑V4 初始化时的加载异常。此外,团队修正了部分模型加载回归错误,提升了整体稳定性。该版本由 6 位贡献者提交了 8 次 commit,其中包含一位新贡献者。用户可通过官方 GitHub 仓库的 release 页面获取二进制包或源码。
升级建议
对于已在 v0.22.0 上运行的用户,建议尽快升级至 v0.22.1 以获取上述修复和新功能。使用 AMD Zen CPU 进行推理的团队可重点关注量化推理优化,实测中吞吐量提升较为明显。JetBrains Mellum v2 模型目前可在 Hugging Face 上直接下载,vLLM 用户只需更新至新版即可加载。
相关文章
- 柠檬轻断食怎样删除饮食记录 06-07
- 淘宝怎么还有卖补单的?淘宝所谓的补单是什么 06-07
- 淘宝怎么叠加618优惠券:淘宝优惠券叠加规则是什么怎么使用 06-07
- 2026年OpenAI企业版办公提效方法:3种高效场景 06-07
- 淘宝复购算全站推广吗 淘宝店铺全站推广的投放方法 06-07
- 淘宝发货面单怎么补打?淘宝原单号怎么打印单号填错了在哪里修改 06-07