字节跳动发布Bernini-R-Diffusers图像文本转视频模型

时间：2026-06-05 14:24:01 编辑：袖梨来源：一聚教程网

字节跳动发布Bernini-R-Diffusers图像文本转视频模型

字节跳动近日在Hugging Face平台发布了Bernini-R-Diffusers模型，这是一个基于Diffusers框架的图像文本转视频工具。模型主打从静态图片与文字描述共同生成动态视频，上手门槛挺低，开发者可以直接调用。目前该模型在Hugging Face上已有3个点赞，采用Apache-2.0开源许可，用户可合法接入使用。

技术底座：Diffusers与Safetensors

Bernini-R-Diffusers基于Diffusers框架构建，这意味着它能够利用现成的扩散模型生态。模型权重采用Safetensors格式存储，说白了就是一种更安全、加载更快的文件格式，避免了传统Pickle格式可能夹带恶意代码的风险。模型还关联了arXiv论文（编号2605.22344），字节跳动在学术层面也做了公开，这确实挺实在的。

核心能力：图像+文本→视频

跟大伙儿聊点实在的，这个模型最大的特点是什么？答案是“图像文本转视频”。它不像常见的文生视频模型那样只靠一句话生成，而是需要用户提供一张参考图片+一段文字描述，两者结合后输出一段连贯的视频。举个例子，你给一张夕阳海滩的照片，再加一句“海浪慢慢拍打沙滩”，模型就能生成对应的动态画面——这跟单纯的文字生成视频完全是两码事。

发布形式：直接上Hugging Face

字节跳动这次没有搞复杂的网页demo，而是直接把模型扔到Hugging Face仓库里。用户可以通过Diffusers库的API一键加载，尤其适合有技术背景的开发者快速集成。模型标签明确标注了“image-text-to-video”，属于多模态生成方向。好家伙，这简直就是给开发者送了一份大礼！

开源与生态意义

采用Apache-2.0许可意味着开发者可以自由修改、商用甚至二次分发，字节跳动在开源方面的态度确实挺开放。模型目前仅支持美国区域（标签“region:us”），但这并不妨碍全球开发者通过官方渠道获取代码。对于国内用户而言，通过合法接入Hugging Face即可使用，何必绕弯路呢？

一点思考

图像文本转视频这个方向其实挺考验模型对空间和时序的理解：既要保留原图的视觉特征，又要根据文本生成合理的运动轨迹。Bernini-R-Diffusers能不能做到流畅又自然？目前还不清楚，但至少字节跳动给出了一个可直接试验的开源方案。没错，在AI视频生成这场竞赛里，又多了一个可以亲手把玩的选项，这难道不是好事吗？

推荐专题

最新下载

热门教程

字节跳动发布Bernini-R-Diffusers图像文本转视频模型

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程