一聚教程网:一个值得你收藏的教程网站

热门教程

Reasmory:用3D重建作为显式记忆增强VLM空间推理

时间:2026-06-03 08:36:01 编辑:袖梨 来源:一聚教程网

Reasmory:用3D重建作为显式记忆增强VLM空间推理

AI行业这篇关于Reasmory的研究,核心是解决视觉语言模型(VLM,能理解图像和文字的多模态模型)空间推理不靠谱的问题。来自arXiv:2606.00963v1的研究团队,把3D重建技术变成了VLM的“外挂记忆”,让模型在理解物体方位、判断远近这类任务上突然开窍。

VLM本身能看图说话,但一碰到“这个杯子在电脑的左边还是右边”这种视角推理、方向比较的问题,立马露怯。原因其实挺简单:多张图片或一段视频里,有用的空间线索太分散,模型根本抓不住重点。凭什么它能从一堆杂乱的图像中准确推算出物体的相对位置呢?VLM光靠自己那点内部记忆,确实吃力。

3D重建当记忆,怎么个玩法?

研究里用了一个重构类视觉基础模型(VFM,一种专门处理视觉数据的底层模型)来做打底。它先把多视角图像里那些杂乱的观测信息,自动规整成一幅紧凑的3D地图——这就好比咱们逛一个新房间,普通人只能记下几件家具的位置,而VFM直接整出了三维户型图。这个图随后就被当作显式记忆,直接喂给VLM做参考。

  1. 原始图像先通通交给VFM,它负责把二维画面里的空间信息提炼成3D点云。
  2. 3D点云作为记忆模块缓存起来,不参与VLM自身的参数更新,算是外挂的“U盘”。
  3. VLM在推理时,主动去读这个3D记忆,相当于一边看图一边对照户型图猜位置。

这套流程说白了,就是让模型不再靠瞎猜,而是拿物理世界里的几何信息当尺子。对比传统直接把图像拼图扔给VLM的做法,Reasmory方式确实让空间推理的准确性上了一个台阶。

显式记忆解决的根本矛盾是什么?

VLM的问题在于,它内部处理的是离散的视觉token(像素碎片的编码),这些碎片彼此之间缺乏空间坐标关联。而3D重建输出的是一张连续、带坐标属性的地图,模型在判断“A物体是否在B物体左后方”时,就不再单纯依赖模糊的像素相似度,而是去地图里直接比对坐标。这算是把抽象推理问题简化成了查表一样的数据检索活儿。

技术亮点与应用潜力

论文里提出的Reasmory,本质上是对VLM推理框架的一种轻量级改造——不需要重新训练整个大模型,只需要在外面套一层可插拔的记忆模块。这意味着,未来想让机器人看懂房间布局、让自动驾驶搞清楚十字路口的车辆相对位置,直接用这个现成的记忆增强思路就行。空间推理这种基础能力一旦补牢,AI接单的靠谱度可就翻倍了。

热门栏目