最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
ViewMask-1-to-3:多模态离散扩散实现多视图一致图像生成
时间:2026-06-04 17:24:01 编辑:袖梨 来源:一聚教程网
ViewMask-1-to-3 面世:用离散扩散“拼”出多视图一致图像
前段时间,一项来自 arXiv 的新研究给图像生成圈带来新思路——研究人员提出 ViewMask-1-to-3,把多视图生成当成“离散序列建模”来玩。之前大伙儿做多视图一致图像,主流都用连续扩散,这篇论文却另辟蹊径,用离散扩散加掩码预测,一步步把不同视角的图像“拼”出来。挺有意思是吧?

核心思路:把视图变成“单词”,用语言模型那套来搞
咱们先拆解一下。研究团队发现离散扩散在语言-视觉联合建模上已经挺成功,就琢磨:能不能把多视图生成也塞进这个框架?于是他们用了 MAGVIT-v2 的视觉 token 来表示每个视角,这样一来,不同角度的画面就变成了一个个离散的“单词”。再通过掩码 token 预测做离散扩散,迭代地揭开被遮住的 token,逐步生成所有视角。说白了,就是把语言和视觉统一到了一个共同的 token 空间里——这不就是咱们常说的“多模态”吗?
方法亮点:渐进式生成,一次比一次清晰
具体怎么做的呢?简单讲就三步:
- 第一步,把输入的单张图像(比如物体正面照)也转成离散 token;
- 第二步,给其他视角(比如侧面、背面)的 token 全部打上“掩码”——相当于全涂黑;
- 第三步,通过离散扩散模型,一步步预测并还原那些被遮住的 token,每次预测一部分,直到所有视角的图像都完整出现。
这个过程跟语言模型里“完形填空”一模一样,只不过填的不是单词,而是画面的局部像素。没错,连老师傅听了都要感叹:原来图像生成也能这么玩!
优势何在?
跟传统连续扩散方法比,离散扩散收敛更快,而且天生适合跟其他文本、标签之类的模态一起训练。因为都在同一个 token 空间里,未来想给多视图生成加个文字描述控制,直接拼接 token 就行,不需要额外设计复杂的对齐模块。这算是一个挺实在的工程红利。
未来展望:多视图生成的门槛还能再降
当然,这篇论文目前还只是学术研究,离产品落地还有距离。但方向确实让人兴奋:想象一下,以后拍一张照片,AI 就能自动帮你生成物体从各个角度看的样子——用在商品展示、3D 内容创作甚至游戏资产制作上,那效率提升可不是一星半点。为什么不期待呢?
相关文章
- 扩散大语言模型动态填充锚点实现灵活格式约束生成 06-04
- 页面未找到 - 404错误原因与解决方法 06-04
- WETBench基准发布:专测维基百科特定任务机器生成文本 06-04
- 慕课网app如何进行实名认证 06-04
- DLLG:动态Logit级门控实现LLM专家Token级融合 06-04
- 同人小说子类别成为对齐大语言模型的通用越狱攻击载体 06-04