Ollama 0.30 融合 llama.cpp，扩展 GGUF 模型支持并提升 NVIDIA 性能

时间：2026-06-03 09:08:01 编辑：袖梨来源：一聚教程网

Ollama 0.30 正式发布，把 llama.cpp 直接整合进核心引擎，这下 GGUF 模型支持范围一下子扩宽了，NVIDIA 显卡上的推理速度也跟着提升了。这次更新不是简单修修补补，而是实打实把底层推理库替换成更通用的 llama.cpp，让 Ollama 能跑更多格式的模型，尤其是 GGUF 格式的。

llama.cpp 融合到底带来了什么？

说白了，以前 Ollama 在 Apple Silicon 上靠的是 MLX 引擎，虽然快但只针对苹果自家芯片。现在把 llama.cpp 塞进来，等于多了一条腿走路——不光苹果电脑上的 M 系列芯片能继续用，连 Windows 和 Linux 上的 NVIDIA 显卡也能享受优化加速。这路子挺实在，开发者不用再因为硬件不同而折腾不同工具链了。

NVIDIA 性能提升有多大？

根据官方说法，这次对 NVIDIA 硬件的推理性能做了针对性优化，速度更快。具体快多少没给数字，但既然专门提出来，估计实际跑模型能感觉到明显提速。咱想想，本地跑大模型最怕卡顿，现在 Ollama 0.30 直接接入 llama.cpp 的 CUDA 优化，普通 GeForce 卡也能跑出更流畅的效果，这不比等云端服务强？

模型支持扩展：Hugging Face 和自己微调的 GGUF 都能直接用了

现在 Hugging Face 上大量 GGUF 格式的开源模型可以一键拉取到 Ollama 里跑，不用再转换格式。自己用 LoRA 微调过的模型，只要导出成 GGUF，也能扔进 Ollama 加载。这就意味着社区里的各种变体、量化版本，几乎都能无缝接入。开发者的选择一下子丰富起来。

已知问题：laguna-xs.2 暂不支持

目前有个小坑——名为 laguna-xs.2 的模型在 Windows 上还跑不起来。官方标注了已知问题，后续版本应该会修。不过大部分主流 GGUF 模型不受影响，急着用的话先避开这个模型就好。

一句话总结：这次更新值得立刻用上

说白了，Ollama 0.30 把 llama.cpp 这个成熟的推理库直接拿来用，GGUF 模型支持从专用扩展变成通用能力，NVIDIA 用户还能白捡一波性能提升。还在用旧版本的吗？赶紧升级试试，反正升级命令就一行，性能提升可是实实在在的。

推荐专题

最新下载

热门教程

Ollama 0.30 融合 llama.cpp，扩展 GGUF 模型支持并提升 NVIDIA 性能

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程