BAAI开源URSA-1.7B-FSQ320文本生成视频模型

时间：2026-06-02 13:24:02 编辑：袖梨来源：一聚教程网

BAAI（北京智源人工智能研究院）在Hugging Face平台开源了其最新的文本生成视频模型URSA-1.7B-FSQ320。该模型基于Qwen/Qwen3-1.7B作为基础模型进行微调，采用了diffusers框架和safetensors格式，专为文本到视频的生成任务设计。目前该模型在社区已累计350次下载，获得了9个点赞，属于小参数规模的轻量化开源方案。

模型是走轻量化路线

URSA-1.7B-FSQ320的参数量仅为1.7B，这在文本生成视频领域真的算挺小的。对比那些动辄几十B参数的庞然大物，它更注重在有限算力下跑出效果。模型生成的视频分辨率由“FSQ320”标识，指向320像素级别的输出规格。为什么选择这么小的尺寸？因为它可以让更多人用普通的消费级显卡就跑起来，降低了咱们制作视频的门槛。

用的是经典技术组合

这个模型的核心逻辑是结合了Qwen3-1.7B的语言理解能力和URSA的视频生成管道（URSAPipeline）。它先把文字描述拆解成特征，再逐帧生成连贯的视频画面。说白了，就是把大语言模型的理解优势，移植到了视频生成任务上。开源协议用的Apache-2.0，意味着开发者可以自由使用、修改甚至商用，这对社区的贡献来说很重要。

社区反应与潜在应用

下载量350次对于刚上架的新模型来说算是个不错的开始。毕竟它没有做大规模宣传，完全靠自然流量吸引开发者。谁能想到，一个1.7B的小模型也能搅动视频生成领域？目前来看，它特别适合做短视频素材的快速原型，或者教育、营销场景下的低成本内容生产。开发者可以直接在Hugging Face仓库里跑通demo，不需要折腾复杂的硬件部署。

开源的意义在于共享

这次开源体现了BAAI一贯的开放态度。他们把论文（arXiv编号2510.24717）和代码都放出来了，等于把黑盒子的秘密摊在桌上。这对行业来说是个好消息——以后做视频生成方向的改进，就有了一个基准小模型可以对比。说到底，AI领域就是靠这样的开放共享才能快速进步，不是吗？

几点技术细节

模型标签里包含了“text-to-video”和“diffusers:URSAPipeline”，意味着它遵循标准的Diffusers接口。开发者只需调用pipeline函数就能传入文本生成视频，上手成本极低。另外，预训练数据和处理流程都公开在GitHub上，纯一聚小编也可以自己复现一遍训练过程。这确实把之前只能大厂玩的技术，拽到了普通开发者的桌前。

小模型也有大潜力

别看它参数少，1.7B的规模如果优化得好，完全能在手机端或者边缘设备上跑推理。未来若配合量化技术，实时生成视频也不是不可能。不过眼下它还是偏重离线生成，毕竟320的分辨率按秒数算下来，计算量依然不小。但咱们得承认，这条轻量化路线走对了——易用性比追求极致画质更重要。

推荐专题

最新下载

热门教程

BAAI开源URSA-1.7B-FSQ320文本生成视频模型

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程