最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
BAAI开源URSA-1.7B-FSQ320文本生成视频模型
时间:2026-06-02 13:24:02 编辑:袖梨 来源:一聚教程网
BAAI(北京智源人工智能研究院)在Hugging Face平台开源了其最新的文本生成视频模型URSA-1.7B-FSQ320。该模型基于Qwen/Qwen3-1.7B作为基础模型进行微调,采用了diffusers框架和safetensors格式,专为文本到视频的生成任务设计。目前该模型在社区已累计350次下载,获得了9个点赞,属于小参数规模的轻量化开源方案。
模型是走轻量化路线

URSA-1.7B-FSQ320的参数量仅为1.7B,这在文本生成视频领域真的算挺小的。对比那些动辄几十B参数的庞然大物,它更注重在有限算力下跑出效果。模型生成的视频分辨率由“FSQ320”标识,指向320像素级别的输出规格。为什么选择这么小的尺寸?因为它可以让更多人用普通的消费级显卡就跑起来,降低了咱们制作视频的门槛。
用的是经典技术组合

这个模型的核心逻辑是结合了Qwen3-1.7B的语言理解能力和URSA的视频生成管道(URSAPipeline)。它先把文字描述拆解成特征,再逐帧生成连贯的视频画面。说白了,就是把大语言模型的理解优势,移植到了视频生成任务上。开源协议用的Apache-2.0,意味着开发者可以自由使用、修改甚至商用,这对社区的贡献来说很重要。
社区反应与潜在应用
下载量350次对于刚上架的新模型来说算是个不错的开始。毕竟它没有做大规模宣传,完全靠自然流量吸引开发者。谁能想到,一个1.7B的小模型也能搅动视频生成领域?目前来看,它特别适合做短视频素材的快速原型,或者教育、营销场景下的低成本内容生产。开发者可以直接在Hugging Face仓库里跑通demo,不需要折腾复杂的硬件部署。
开源的意义在于共享
这次开源体现了BAAI一贯的开放态度。他们把论文(arXiv编号2510.24717)和代码都放出来了,等于把黑盒子的秘密摊在桌上。这对行业来说是个好消息——以后做视频生成方向的改进,就有了一个基准小模型可以对比。说到底,AI领域就是靠这样的开放共享才能快速进步,不是吗?
几点技术细节
模型标签里包含了“text-to-video”和“diffusers:URSAPipeline”,意味着它遵循标准的Diffusers接口。开发者只需调用pipeline函数就能传入文本生成视频,上手成本极低。另外,预训练数据和处理流程都公开在GitHub上,纯一聚小编也可以自己复现一遍训练过程。这确实把之前只能大厂玩的技术,拽到了普通开发者的桌前。
小模型也有大潜力
别看它参数少,1.7B的规模如果优化得好,完全能在手机端或者边缘设备上跑推理。未来若配合量化技术,实时生成视频也不是不可能。不过眼下它还是偏重离线生成,毕竟320的分辨率按秒数算下来,计算量依然不小。但咱们得承认,这条轻量化路线走对了——易用性比追求极致画质更重要。
相关文章
- 字节跳动推出ATI图像转视频模型,基于Wan2.1微调 06-02
- 空洞骑士丝之歌:符文之怒解锁方法详解 06-02
- 联想小新padpro屏幕色彩失真 06-02
- Team Cherry揭秘:为何《丝之歌》开发难度如此之高 06-02
- 字节跳动开源Vidi1.5-9B:基于Gemma-2的视频音频多模态模型 06-02
- 哪个仙侠手游好玩 06-02