一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

vLLM v0.22.1集成JetBrains Mellum v2并优化AMD Zen CPU量化推理

时间:2026-06-07 09:48:02 编辑:袖梨 来源:一聚教程网

vLLM 团队于日前发布 v0.22.1 版本,该补丁版本在 v0.22.0 基础上新增 JetBrains Mellum v2 模型支持,并引入 zentorch 加速的 AMD Zen CPU 量化推理优化,同时修复多节点 Ray 数据并行服务、DeepSeek‑V4 初始化等 bug。vLLM 是一个高性能大语言模型推理引擎,此次更新让用户能在 AMD Zen 架构 CPU 上通过量化推理获得更快的线性计算速度,同时扩大了对开放权重模型的兼容范围。

新模型支持:JetBrains Mellum v2

v0.22.1 集成了 JetBrains 推出的 Mellum v2 模型。该模型属于开放权重架构,开发者可在本地部署,无需依赖第三方 API。vLLM 团队将其直接纳入模型支持列表,意味着用户只需指定模型名称即可加载 Mellum v2,无需额外手动配置。这对偏好私有化部署的团队来说是一个实用更新。

AMD Zen CPU 量化推理优化

本次更新重点优化了 AMD Zen CPU 上的量化线性推理。通过集成 zentorch 加速库,vLLM 在 AMD Zen 系列处理器上对量化后的线性层计算做了针对性调优。量化推理可将模型权重从浮点数压缩为低比特整数,大幅减少内存带宽需求,在 CPU 环境下尤其能提升吞吐量。zentorch 是专为 AMD 平台优化的计算库,此次整合使得 vLLM 用户无需额外安装驱动即可在 AMD CPU 上获得更好的推理性能。

其他修复与版本信息

v0.22.1 还修复了多节点 Ray 数据并行服务中的若干问题,并解决了 DeepSeek‑V4 初始化时的加载异常。此外,团队修正了部分模型加载回归错误,提升了整体稳定性。该版本由 6 位贡献者提交了 8 次 commit,其中包含一位新贡献者。用户可通过官方 GitHub 仓库的 release 页面获取二进制包或源码。

升级建议

对于已在 v0.22.0 上运行的用户,建议尽快升级至 v0.22.1 以获取上述修复和新功能。使用 AMD Zen CPU 进行推理的团队可重点关注量化推理优化,实测中吞吐量提升较为明显。JetBrains Mellum v2 模型目前可在 Hugging Face 上直接下载,vLLM 用户只需更新至新版即可加载。

热门栏目