一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

HuggingFace:NVIDIA 开源全模态模型 Cosmos 3 推动物理 AI 推理与行动

时间:2026-06-07 16:08:01 编辑:袖梨 来源:一聚教程网

NVIDIA 在 Hugging Face 开源全模态模型 Cosmos 3,推动物理 AI 推理与行动

日前,NVIDIA 在 Hugging Face 平台正式发布了全模态模型 Cosmos 3。这是首个开源的、专为物理 AI 推理与行动设计的 omni-model(全模态模型,指能同时理解文本、图像、视频等多种数据类型)。该模型旨在让机器在真实物理世界中不仅能感知,还能做出推理并执行动作,直接回应了开发者对“物理 AI 基础模型”的核心需求。

Cosmos 3 的定位与技术特点

Cosmos 3 并非简单的视觉语言模型,而是针对物理世界动态理解做了专门设计。它能够处理来自不同传感器的多模态输入,例如摄像头视频流、文本指令以及环境状态数据,并输出用于决策与控制的行动指令。这种“感知-推理-行动”的闭环能力,使其成为机器人、自动驾驶和工业自动化等领域的关键基础设施。NVIDIA 选择在 Hugging Face 上开源此模型,意味着全球开发者可以直接通过官方渠道获取、微调并部署该模型。

开源推动社区采用与自定义

与许多封闭的专有模型不同,Cosmos 3 的开源策略降低了开发者的使用门槛。Hugging Face 的社区博客文章强调,这一开源 omni-model 将加速物理 AI 从研究走向实际应用。开发者可以利用 Hugging Face 生态中的工具链(如 Transformers 库)快速上手,并根据特定场景(如特定仓库的物流机器人、特定车型的自动驾驶)重新训练模型。同期,NVIDIA 还发布了 Nemotron 3.5 ASR 模型的微调指南,进一步表明其在开源 AI 工具链上的持续投入。

对物理 AI 行业竞争格局的影响

此次开源行动向市场传递了一个信号:在物理 AI 这一前沿赛道,开放协作正成为驱动创新的有效路径。过去,物理 AI 模型往往被少数巨头垄断,开发门槛极高。Cosmos 3 的开源有望打破这种局面,使得初创公司、研究机构甚至个人开发者都能参与到物理世界的智能体开发中。这不仅可能降低机器人系统的开发成本,也可能催生更多针对垂直行业的专业化应用。

开发者如何获取与使用

开发者可以访问 Hugging Face 平台上的 NVIDIA 官方页面,直接下载 Cosmos 3 模型的权重与使用文档。建议按照以下步骤操作:

  • 注册 Hugging Face 账户并登录。
  • 在模型库中搜索“NVIDIA Cosmos 3”。
  • 查看官方提供的模型卡,了解输入输出格式与许可协议。
  • 使用 Hugging Face 的标准推理 API 或本地部署脚本进行测试。

整体而言,Cosmos 3 的开源不仅提供了一个强大的模型,更构建了一个让物理 AI 推理与行动能力更快落地的社区基础。

热门栏目