多模态大模型空间推理存在词汇偏差：添加空间关系词即诱导选择

时间：2026-06-03 13:24:01 编辑：袖梨来源：一聚教程网

多模态大语言模型（能同时处理图像和文本的AI）在回答空间选择题时，暴露出一个严重的词汇偏差问题：只要在答案选项中加入“上方”、“左侧”这类空间关系词，模型就会像被施了魔法一样，更倾向于选中那个带词的选项，哪怕它是错的。研究人员利用九种不同的开源权重模型（例如Meta的Llama、阿里巴巴的Qwen等）进行测试，发现这一现象普遍存在，堪称AI“指鹿为马”的新把戏。

什么是空间词汇偏差？

简单来说，就是模型的眼睛没瞎，但脑子却容易被语言带偏。以往大家总觉得模型在空间问题上犯错，是因为它没“看见”图片里的信息。这个来自arXiv:2606.01914v1的新研究却指出，这是一个互补的、关于“词汇”的故障模式。实际上，模型明明能正确回答一个二选一的空间问题，可当你悄悄在选项中加上一个空间词，它的判断就瞬间崩溃了。

实验细节：词汇如何“绑架”了模型？

研究人员设计了一套精巧的诊断方法。他们拿一张图片问模型：“红色方块在蓝色方块的哪边？” 正确答案可能是“右边”。但如果在选项中把“左边”改成“左边上方”，模型就很可能鬼使神差地去选“左边上方”。这就像是考试时，考题里出现了一个你更熟悉的词，就不管三七二十一选它，够无脑吧？

具体实验步骤可以这么看：

第一步：给模型看一张包含两个物体的图片。
第二步：提出一个二元空间问题，例如“谁在谁的上面？”。
第三步：在答案选项中，随机将一个选项添加上空间关系词（如“下方”或“左侧”）。
结果：模型选那个带有空间关系词选项的概率，会比随机猜高出不少，完全无视图片里的实际位置。

凭什么说这不是运气问题？

没错！研究可不是只做一两次实验就下结论。他们用了九种不同的模型，涵盖了当前主流的开源技术路线，结果都指向了同一方向。这充分说明，问题不出在某个特定模型的训练数据或架构上，而是多模态大模型在空间理解方面的一个系统性漏洞。

比起“看不见”，更像是“听信谗言”

以前咱们总觉得AI的空间推理差，是因为它没把图片看仔细。可这项研究告诉我们，即使模型正确提取了视觉信息，它的语言模块也可能像一个小人一样，在耳边吹风：“嘿，这个选项里有个‘上方’的词，听着挺顺耳，就选它吧！” 视觉信息被正确“体现”了吗？没有，它被词汇的“魅力”给打败了。

这对AI发展意味着什么？

空间推理能力，对于自动驾驶、机器人操作这类任务可是基础。如果模型连“杯子在桌子的左边”这种基本关系都搞不清，还怎么指望它能准确抓取物品？研究指出的“诱导选择”偏误，让咱们看到，单纯增加训练数据或算力，可能治标不治本。修正这种词汇层面的偏差，恐怕得从模型的决策机制入手，让它学会过滤掉语言上的“花招”，真正相信自己的“眼睛”——视觉特征才行。

这项研究等于给AI领域提了个醒：模型很聪明，但也容易犯低级错误。搞清楚它到底在哪个环节“栽跟头”，是让AI从“会说话”进化到“会理解”的关键一步。这挺值得咱们继续关注的吧？

推荐专题

最新下载

热门教程

多模态大模型空间推理存在词汇偏差：添加空间关系词即诱导选择

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程