最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
Ollama 0.30 融合 llama.cpp,扩展 GGUF 模型支持并提升 NVIDIA 性能
时间:2026-06-03 09:08:01 编辑:袖梨 来源:一聚教程网
Ollama 0.30 正式发布,把 llama.cpp 直接整合进核心引擎,这下 GGUF 模型支持范围一下子扩宽了,NVIDIA 显卡上的推理速度也跟着提升了。这次更新不是简单修修补补,而是实打实把底层推理库替换成更通用的 llama.cpp,让 Ollama 能跑更多格式的模型,尤其是 GGUF 格式的。
llama.cpp 融合到底带来了什么?

说白了,以前 Ollama 在 Apple Silicon 上靠的是 MLX 引擎,虽然快但只针对苹果自家芯片。现在把 llama.cpp 塞进来,等于多了一条腿走路——不光苹果电脑上的 M 系列芯片能继续用,连 Windows 和 Linux 上的 NVIDIA 显卡也能享受优化加速。这路子挺实在,开发者不用再因为硬件不同而折腾不同工具链了。
NVIDIA 性能提升有多大?

根据官方说法,这次对 NVIDIA 硬件的推理性能做了针对性优化,速度更快。具体快多少没给数字,但既然专门提出来,估计实际跑模型能感觉到明显提速。咱想想,本地跑大模型最怕卡顿,现在 Ollama 0.30 直接接入 llama.cpp 的 CUDA 优化,普通 GeForce 卡也能跑出更流畅的效果,这不比等云端服务强?
模型支持扩展:Hugging Face 和自己微调的 GGUF 都能直接用了
现在 Hugging Face 上大量 GGUF 格式的开源模型可以一键拉取到 Ollama 里跑,不用再转换格式。自己用 LoRA 微调过的模型,只要导出成 GGUF,也能扔进 Ollama 加载。这就意味着社区里的各种变体、量化版本,几乎都能无缝接入。开发者的选择一下子丰富起来。
已知问题:laguna-xs.2 暂不支持
目前有个小坑——名为 laguna-xs.2 的模型在 Windows 上还跑不起来。官方标注了已知问题,后续版本应该会修。不过大部分主流 GGUF 模型不受影响,急着用的话先避开这个模型就好。
一句话总结:这次更新值得立刻用上
说白了,Ollama 0.30 把 llama.cpp 这个成熟的推理库直接拿来用,GGUF 模型支持从专用扩展变成通用能力,NVIDIA 用户还能白捡一波性能提升。还在用旧版本的吗?赶紧升级试试,反正升级命令就一行,性能提升可是实实在在的。
相关文章
- 《重返未来1999》官方致歉声明:针对240万玩家反馈的争议问题进行正式回应 06-03
- RuleEdit:规则引导的AI模型编辑系统,可预检失败与影响 06-03
- 征途手机版仙属性加点攻略-强力BUFF让你停不下来 06-03
- 御龙在天手游:马装获取方式全面解析 06-03
- 深度研究代理轨迹中的跨度级错误定位新方法 06-03
- 神武2手游_小龙女百变上色技巧全解析 06-03