ViewMask-1-to-3：多模态离散扩散实现多视图一致图像生成

时间：2026-06-04 17:24:01 编辑：袖梨来源：一聚教程网

ViewMask-1-to-3 面世：用离散扩散“拼”出多视图一致图像

前段时间，一项来自 arXiv 的新研究给图像生成圈带来新思路——研究人员提出 ViewMask-1-to-3，把多视图生成当成“离散序列建模”来玩。之前大伙儿做多视图一致图像，主流都用连续扩散，这篇论文却另辟蹊径，用离散扩散加掩码预测，一步步把不同视角的图像“拼”出来。挺有意思是吧？

核心思路：把视图变成“单词”，用语言模型那套来搞

咱们先拆解一下。研究团队发现离散扩散在语言-视觉联合建模上已经挺成功，就琢磨：能不能把多视图生成也塞进这个框架？于是他们用了 MAGVIT-v2 的视觉 token 来表示每个视角，这样一来，不同角度的画面就变成了一个个离散的“单词”。再通过掩码 token 预测做离散扩散，迭代地揭开被遮住的 token，逐步生成所有视角。说白了，就是把语言和视觉统一到了一个共同的 token 空间里——这不就是咱们常说的“多模态”吗？

方法亮点：渐进式生成，一次比一次清晰

具体怎么做的呢？简单讲就三步：

第一步，把输入的单张图像（比如物体正面照）也转成离散 token；
第二步，给其他视角（比如侧面、背面）的 token 全部打上“掩码”——相当于全涂黑；
第三步，通过离散扩散模型，一步步预测并还原那些被遮住的 token，每次预测一部分，直到所有视角的图像都完整出现。

这个过程跟语言模型里“完形填空”一模一样，只不过填的不是单词，而是画面的局部像素。没错，连老师傅听了都要感叹：原来图像生成也能这么玩！

优势何在？

跟传统连续扩散方法比，离散扩散收敛更快，而且天生适合跟其他文本、标签之类的模态一起训练。因为都在同一个 token 空间里，未来想给多视图生成加个文字描述控制，直接拼接 token 就行，不需要额外设计复杂的对齐模块。这算是一个挺实在的工程红利。

未来展望：多视图生成的门槛还能再降

当然，这篇论文目前还只是学术研究，离产品落地还有距离。但方向确实让人兴奋：想象一下，以后拍一张照片，AI 就能自动帮你生成物体从各个角度看的样子——用在商品展示、3D 内容创作甚至游戏资产制作上，那效率提升可不是一星半点。为什么不期待呢？

推荐专题

最新下载

热门教程

ViewMask-1-to-3：多模态离散扩散实现多视图一致图像生成

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程