Google DeepMind 开源 Gemma 4-12B-it 多模态模型

时间：2026-06-07 09:36:02 编辑：袖梨来源：一聚教程网

Google DeepMind 开源 Gemma 4-12B-it 多模态模型

Google DeepMind 日前将最新一代 Gemma 4-12B-it 多模态模型以开源形式发布在 Hugging Face 平台。该模型基于 Gemma 4-12B-it 基础版本，经过量化感知训练后支持图像与文本的双向处理。开发者可直接下载权重，用于构建理解图片与文字的多模态应用。

开源背景

Gemma 系列是谷歌面向轻量级部署场景推出的开源模型系列。本次发布的具体版本名为 google/gemma-4-12B-it-qat-q4_0-unquantized，采用 QAT（量化感知训练，一种在大幅压缩模型文件同时保持准确度的技术）并压缩至 4-bit 精度，但保留完整权重以维持推理质量。这一优化使得模型更易于运行在本地设备或边缘端。

技术特性

根据 Hugging Face 上显示的标签信息，该模型兼容 Transformers 框架，并将 pipeline 类型标注为 any-to-any（任意输入到任意输出的多模态转换）。这意味着它不仅能同时处理文字和图像，还能实现两种模态之间的相互生成，例如根据图片描述生成文字，或根据文字指令生成图像特征。模型以 Apache-2.0 许可证开放，允许自由使用与修改。

社区反响

截至目前，该模型在 Hugging Face 获得了 435 次下载与 17 个点赞。数据表明研究者与开发者对其多模态能力存在实际兴趣，尤其是轻量化架构降低了实验门槛。标签中的 region:us 提示服务器部署于美国区域，但模型权重本身可由全球用户通过官方渠道获取。

应用潜力

多模态模型正从实验室走向应用层，Gemma 4-12B-it 的开源版本使得小型团队也能快速实验。典型场景包括自动化图像标注、视觉问答、多模态内容审核等。由于模型体积经过压缩，部署成本较同类全精度模型更低，适合在自有环境搭建推理服务。

总结

Google DeepMind 此次开源动作延续了其推动 AI 民主化的路线。Gemma 4-12B-it 多模态模型为社区提供了一个兼顾效率与能力的开源选项，任何有基本 Transformer 使用经验的开发者均可快速上手。

推荐专题

最新下载

热门教程

Google DeepMind 开源 Gemma 4-12B-it 多模态模型

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程