智源AI开源URSA-1.7B文本生成视频模型

时间：2026-06-02 13:12:01 编辑：袖梨来源：一聚教程网

智源人工智能研究院（BAAI）日前在 Hugging Face 平台上正式开源了旗下最新的文本生成视频模型 URSA-1.7B-FSQ320。该模型基于 Qwen3-1.7B 大语言模型进行微调，采用 Apache-2.0 开源协议发布，这意味着开发者可以免费使用、修改并商用这个模型。

其实挺让人意外的是，一个仅 1.7B 参数量的视频生成模型，竟然能直接跑在消费级显卡上。根据官方发布的模型卡信息，URSA-1.7B 使用了 FSQ320 技术进行视频 token 化，并通过 diffusers 框架的 URSAPipeline 进行推理。这种轻量化的设计思路，让视频生成不再是云端巨头的专属游戏，普通开发者和研究者也能上手体验——这不正是开源社区最迷人的地方吗？

架构与性能亮点

作为一款 text-to-video 模型，URSA-1.7B 的核心竞争力在于其简洁的架构。它直接套用 Qwen3-1.7B 作为基础语言模型，这意味着训练门槛大幅降低。目前模型已经获得了 350 次下载和 9 个点赞，社区反馈还算积极。不过，咱们也得承认，350 的下载量在热门模型里只能算是个起步，但这恰恰说明文本生成视频领域还有巨大的发展空间。

开源策略与行业影响

智源这次选择在 Hugging Face 的美国区域托管模型，显然是瞄准了全球开发者社区。Apache-2.0 许可意味着任何公司都能基于此模型开发商业产品，无需担心专利纠纷。这种彻底的开源策略，确实能推动整个视频生成生态的繁荣。为什么这么说呢？因为当代码和权重完全开放后，后续的创新就不再受限于单一研究院，而是由成千上万的开发者共同推动。

值得留意的是，模型标签中包含了 "arxiv:2510.24717"，说明同步有技术论文可供参考。开发者在实际使用前，最好先读读这篇论文，搞清楚 FSQ320 的具体原理，这样调参时会更得心应手。毕竟，只看模型卡是很难完全掌握技术细节的，对吧？

总的来说，URSA-1.7B 的开源填补了轻量级文本生成视频模型的市场空白。它不像那些动辄几十亿参数的庞然大物那样高不可攀，反而更像一个精巧的工具箱，让更多人可以亲手尝试视频生成。这就给 2025 年的 AI 视频领域注入了新的变数——小模型同样能做出大文章。

推荐专题

最新下载

热门教程

智源AI开源URSA-1.7B文本生成视频模型

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程