一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

视觉语言模型空间推理一致却错误:证据不敏感性

时间:2026-06-05 18:08:01 编辑:袖梨 来源:一聚教程网

视觉语言模型空间推理一致却错误:证据不敏感性

日前,一项来自arXiv的新研究(编号2606.02742)揭示了一个令人意外的现象:顶尖的视觉语言模型(VLMs)在面对空间距离问题时,常常给出前后一致的错误答案。这可不是模型变聪明了,而是暴露出一个根本问题——证据不敏感性。

咱们先回想一下,空间推理能力对于机器人、自动驾驶和具身AI有多重要?一个机器人要是连“桌子上的杯子离我有多远”都算不准,那它取东西时非得把桌子掀了不可。过去,业界普遍认为,如果模型对同一场景从不同角度给出的答案都一致,那就说明它真的理解了空间几何。但这项研究狠狠打了脸:事实正好相反!

研究团队设计了一套名为ViewDiag的评估框架,专门用来测试模型是否真的依赖视觉证据。他们发现,像GPT-4o、Gemini 2.5 Pro以及DeepSeek-VL2这类主流模型,在多视角测试中表现出惊人的一致性——但答案却错得离谱。模型还会“嘴硬”,换个角度问,依然给出同样的错误数据。这难道不是说明,模型根本就没在“看”画面,而是靠某种语言上的套路在蒙混过关吗?

这种“一致却错误”的现象被研究者定义为证据不敏感性。说白了,就是模型的预测结果与观察角度所呈现的视觉信息之间,联系非常微弱。举个例子:你从左边看一个杯子,觉得它离你30厘米;从右边看,它确实应该变成另一段距离。但VLM从左右看,都告诉你“30厘米”——这完全违背了视觉几何的基本常识。

为什么会这样呢?研究者推测,这跟模型训练时过度依赖语言统计规律有关。VLM在大量图文数据中学会了“距离是多少”这类问题的标准回答套路,但它并没有真正建立起三维空间的心智模型。这就像一个学生背下了所有数学题的答案,但根本不懂推导过程——一旦题目换个数据,他就彻底傻眼。

ViewDiag评估框架的厉害之处在于,它能精准区分“真懂”和“假一致”。测试流程其实挺简单的:

  • 首先,对同一物体或场景进行多视角拍摄,生成一组图片。
  • 然后,让模型回答各视角下的具体距离或位置关系。
  • 最后,对比答案的“视角一致性”与“答案正确性”。

结果让ren大跌眼镜:在多视角一致性得分高的模型中,正确率反而偏低。这意味着一味追求“答案稳定”可能是个陷阱,稳定的错误比不稳定的正确更有害——在自动驾驶里,一个稳定的错误判断足以导致灾难性后果。

这项研究给整个AI社区敲响了警钟。现在大家都在追“大模型”“多模态”,但空间推理这个基础能力如果不扎实,所谓“通用人工智能”就依然是空中楼阁。凭什么说一个模型强?光会写诗画画可不行,得让它真正看得懂三维世界。未来,如何打破这种“证据不敏感性”、让VLM学会基于真实视觉证据进行推理,才是真正值得攻坚的难题。

热门栏目