最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
参考引导深度压缩VAE实现实时流式说话人肖像视频生成
时间:2026-06-02 19:00:02 编辑:袖梨 来源:一聚教程网
日前,一篇题为《Real-Time Generation of Streamable Talking Portrait Video with Reference-Guided》的论文在arXiv上正式发布,提出了一个融合参考引导深度压缩VAE的框架,专门用于实现实时流式说话人肖像视频生成。这项研究直接瞄准视频扩散模型计算开销大的痛点,想把说话人视频交互做到直播间、在线客服这种需要实时响应的场景里去。
视频扩散模型为什么做不了实时?

说白了,现在的视频扩散模型确实很能打,能生成挺逼真的肖像动画。但它每生成一帧都得跑一遍完整的扩散采样——一张图就要几秒甚至几十秒,更别说连续的视频流了。这就是为什么大多数说话人视频生成Demo都是离线处理,用户得等半天。论文里的方法则绕开这条老路,用因果视频VAE做深度潜在压缩,把像素空间的冗余信息大幅削减,再搭配一个自回归潜在去噪模型来逐帧生成,算力消耗一下子就降下来了。
参考引导是怎么起作用的?

这个框架的一大亮点是把参考图像直接塞进因果VAE的编码过程里。常规视频VAE只能压缩单帧或连续帧,但这里的设计允许编码器接收不定数量的参考帧作为引导,让网络能“记住”人物的长相、发型、背景等关键细节。这样一来,后续的自回归模型在生成新帧时,就不需要从头推断人物形象,而是靠参考信息直接锁定特征——这就好比咱们画肖像时,先放一张模特照片在旁边对照着画,比凭空想象要省力得多吧?
流式场景下的性能飞跃
论文专门为流式播报场景做了优化:因果VAE只依赖过去帧,不等待未来帧,所以可以实现逐帧实时输出。再加上深度压缩把潜在空间的尺寸缩到很小,自回归去噪过程几乎感觉不到延迟。想一想,如果以后视频通话、虚拟主播、在线教学都能用上这种技术,那说话人的口型、表情、头部动作都能跟音频同步流畅播放,体验确实会提升一大截。
目前这个框架已经在多个公开数据集上验证了效果,论文代码和预训练模型后续也会开源。实时说话人肖像视频生成离产品化又近了一步,咱们拭目以待——但千万别用公式化期待,毕竟从论文到落地还有一段路要走,不过至少方向对了不是吗?
相关文章
- Auteur 语言驱动视频生成实现以人为中心的摄像机取景 06-02
- CultureForest:大模型文化规范推理评估新基准 06-02
- ACDSee如何设置快捷键 06-02
- 十大仓库管理软件推荐:受欢迎的仓库管理系统精选大全 06-02
- 连续流语言模型FLM用确定性ODE突破离散扩散因子化采样瓶颈 06-02
- UniKE基准揭示文本知识编辑难以泛化至多模态视觉生成 06-02