一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

ViewMask-1-to-3:多模态离散扩散实现多视图一致图像生成

时间:2026-06-04 17:24:01 编辑:袖梨 来源:一聚教程网

ViewMask-1-to-3 面世:用离散扩散“拼”出多视图一致图像

前段时间,一项来自 arXiv 的新研究给图像生成圈带来新思路——研究人员提出 ViewMask-1-to-3,把多视图生成当成“离散序列建模”来玩。之前大伙儿做多视图一致图像,主流都用连续扩散,这篇论文却另辟蹊径,用离散扩散加掩码预测,一步步把不同视角的图像“拼”出来。挺有意思是吧?

核心思路:把视图变成“单词”,用语言模型那套来搞

咱们先拆解一下。研究团队发现离散扩散在语言-视觉联合建模上已经挺成功,就琢磨:能不能把多视图生成也塞进这个框架?于是他们用了 MAGVIT-v2 的视觉 token 来表示每个视角,这样一来,不同角度的画面就变成了一个个离散的“单词”。再通过掩码 token 预测做离散扩散,迭代地揭开被遮住的 token,逐步生成所有视角。说白了,就是把语言和视觉统一到了一个共同的 token 空间里——这不就是咱们常说的“多模态”吗?

方法亮点:渐进式生成,一次比一次清晰

具体怎么做的呢?简单讲就三步:

  • 第一步,把输入的单张图像(比如物体正面照)也转成离散 token;
  • 第二步,给其他视角(比如侧面、背面)的 token 全部打上“掩码”——相当于全涂黑;
  • 第三步,通过离散扩散模型,一步步预测并还原那些被遮住的 token,每次预测一部分,直到所有视角的图像都完整出现。

这个过程跟语言模型里“完形填空”一模一样,只不过填的不是单词,而是画面的局部像素。没错,连老师傅听了都要感叹:原来图像生成也能这么玩!

优势何在?

跟传统连续扩散方法比,离散扩散收敛更快,而且天生适合跟其他文本、标签之类的模态一起训练。因为都在同一个 token 空间里,未来想给多视图生成加个文字描述控制,直接拼接 token 就行,不需要额外设计复杂的对齐模块。这算是一个挺实在的工程红利。

未来展望:多视图生成的门槛还能再降

当然,这篇论文目前还只是学术研究,离产品落地还有距离。但方向确实让人兴奋:想象一下,以后拍一张照片,AI 就能自动帮你生成物体从各个角度看的样子——用在商品展示、3D 内容创作甚至游戏资产制作上,那效率提升可不是一星半点。为什么不期待呢?

热门栏目