Reasmory：用3D重建作为显式记忆增强VLM空间推理

时间：2026-06-03 08:36:01 编辑：袖梨来源：一聚教程网

Reasmory：用3D重建作为显式记忆增强VLM空间推理

AI行业这篇关于Reasmory的研究，核心是解决视觉语言模型（VLM，能理解图像和文字的多模态模型）空间推理不靠谱的问题。来自arXiv:2606.00963v1的研究团队，把3D重建技术变成了VLM的“外挂记忆”，让模型在理解物体方位、判断远近这类任务上突然开窍。

VLM本身能看图说话，但一碰到“这个杯子在电脑的左边还是右边”这种视角推理、方向比较的问题，立马露怯。原因其实挺简单：多张图片或一段视频里，有用的空间线索太分散，模型根本抓不住重点。凭什么它能从一堆杂乱的图像中准确推算出物体的相对位置呢？VLM光靠自己那点内部记忆，确实吃力。

3D重建当记忆，怎么个玩法？

研究里用了一个重构类视觉基础模型（VFM，一种专门处理视觉数据的底层模型）来做打底。它先把多视角图像里那些杂乱的观测信息，自动规整成一幅紧凑的3D地图——这就好比咱们逛一个新房间，普通人只能记下几件家具的位置，而VFM直接整出了三维户型图。这个图随后就被当作显式记忆，直接喂给VLM做参考。

原始图像先通通交给VFM，它负责把二维画面里的空间信息提炼成3D点云。
3D点云作为记忆模块缓存起来，不参与VLM自身的参数更新，算是外挂的“U盘”。
VLM在推理时，主动去读这个3D记忆，相当于一边看图一边对照户型图猜位置。

这套流程说白了，就是让模型不再靠瞎猜，而是拿物理世界里的几何信息当尺子。对比传统直接把图像拼图扔给VLM的做法，Reasmory方式确实让空间推理的准确性上了一个台阶。

显式记忆解决的根本矛盾是什么？

VLM的问题在于，它内部处理的是离散的视觉token（像素碎片的编码），这些碎片彼此之间缺乏空间坐标关联。而3D重建输出的是一张连续、带坐标属性的地图，模型在判断“A物体是否在B物体左后方”时，就不再单纯依赖模糊的像素相似度，而是去地图里直接比对坐标。这算是把抽象推理问题简化成了查表一样的数据检索活儿。

技术亮点与应用潜力

论文里提出的Reasmory，本质上是对VLM推理框架的一种轻量级改造——不需要重新训练整个大模型，只需要在外面套一层可插拔的记忆模块。这意味着，未来想让机器人看懂房间布局、让自动驾驶搞清楚十字路口的车辆相对位置，直接用这个现成的记忆增强思路就行。空间推理这种基础能力一旦补牢，AI接单的靠谱度可就翻倍了。

推荐专题

最新下载

热门教程

Reasmory：用3D重建作为显式记忆增强VLM空间推理

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程