vLLM v0.22.1集成JetBrains Mellum v2并优化AMD Zen CPU量化推理

时间：2026-06-07 09:48:02 编辑：袖梨来源：一聚教程网

vLLM 团队于日前发布 v0.22.1 版本，该补丁版本在 v0.22.0 基础上新增 JetBrains Mellum v2 模型支持，并引入 zentorch 加速的 AMD Zen CPU 量化推理优化，同时修复多节点 Ray 数据并行服务、DeepSeek‑V4 初始化等 bug。vLLM 是一个高性能大语言模型推理引擎，此次更新让用户能在 AMD Zen 架构 CPU 上通过量化推理获得更快的线性计算速度，同时扩大了对开放权重模型的兼容范围。

新模型支持：JetBrains Mellum v2

v0.22.1 集成了 JetBrains 推出的 Mellum v2 模型。该模型属于开放权重架构，开发者可在本地部署，无需依赖第三方 API。vLLM 团队将其直接纳入模型支持列表，意味着用户只需指定模型名称即可加载 Mellum v2，无需额外手动配置。这对偏好私有化部署的团队来说是一个实用更新。

AMD Zen CPU 量化推理优化

本次更新重点优化了 AMD Zen CPU 上的量化线性推理。通过集成 zentorch 加速库，vLLM 在 AMD Zen 系列处理器上对量化后的线性层计算做了针对性调优。量化推理可将模型权重从浮点数压缩为低比特整数，大幅减少内存带宽需求，在 CPU 环境下尤其能提升吞吐量。zentorch 是专为 AMD 平台优化的计算库，此次整合使得 vLLM 用户无需额外安装驱动即可在 AMD CPU 上获得更好的推理性能。

其他修复与版本信息

v0.22.1 还修复了多节点 Ray 数据并行服务中的若干问题，并解决了 DeepSeek‑V4 初始化时的加载异常。此外，团队修正了部分模型加载回归错误，提升了整体稳定性。该版本由 6 位贡献者提交了 8 次 commit，其中包含一位新贡献者。用户可通过官方 GitHub 仓库的 release 页面获取二进制包或源码。

升级建议

对于已在 v0.22.0 上运行的用户，建议尽快升级至 v0.22.1 以获取上述修复和新功能。使用 AMD Zen CPU 进行推理的团队可重点关注量化推理优化，实测中吞吐量提升较为明显。JetBrains Mellum v2 模型目前可在 Hugging Face 上直接下载，vLLM 用户只需更新至新版即可加载。

推荐专题

最新下载

热门教程

vLLM v0.22.1集成JetBrains Mellum v2并优化AMD Zen CPU量化推理

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程