一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

多模态大模型空间推理存在词汇偏差:添加空间关系词即诱导选择

时间:2026-06-03 13:24:01 编辑:袖梨 来源:一聚教程网

多模态大语言模型(能同时处理图像和文本的AI)在回答空间选择题时,暴露出一个严重的词汇偏差问题:只要在答案选项中加入“上方”、“左侧”这类空间关系词,模型就会像被施了魔法一样,更倾向于选中那个带词的选项,哪怕它是错的。研究人员利用九种不同的开源权重模型(例如Meta的Llama、阿里巴巴的Qwen等)进行测试,发现这一现象普遍存在,堪称AI“指鹿为马”的新把戏。

什么是空间词汇偏差?

简单来说,就是模型的眼睛没瞎,但脑子却容易被语言带偏。以往大家总觉得模型在空间问题上犯错,是因为它没“看见”图片里的信息。这个来自arXiv:2606.01914v1的新研究却指出,这是一个互补的、关于“词汇”的故障模式。实际上,模型明明能正确回答一个二选一的空间问题,可当你悄悄在选项中加上一个空间词,它的判断就瞬间崩溃了。

实验细节:词汇如何“绑架”了模型?

研究人员设计了一套精巧的诊断方法。他们拿一张图片问模型:“红色方块在蓝色方块的哪边?” 正确答案可能是“右边”。但如果在选项中把“左边”改成“左边上方”,模型就很可能鬼使神差地去选“左边上方”。这就像是考试时,考题里出现了一个你更熟悉的词,就不管三七二十一选它,够无脑吧?

具体实验步骤可以这么看:

  • 第一步:给模型看一张包含两个物体的图片。
  • 第二步:提出一个二元空间问题,例如“谁在谁的上面?”。
  • 第三步:在答案选项中,随机将一个选项添加上空间关系词(如“下方”或“左侧”)。
  • 结果:模型选那个带有空间关系词选项的概率,会比随机猜高出不少,完全无视图片里的实际位置。

凭什么说这不是运气问题?

没错!研究可不是只做一两次实验就下结论。他们用了九种不同的模型,涵盖了当前主流的开源技术路线,结果都指向了同一方向。这充分说明,问题不出在某个特定模型的训练数据或架构上,而是多模态大模型在空间理解方面的一个系统性漏洞。

比起“看不见”,更像是“听信谗言”

以前咱们总觉得AI的空间推理差,是因为它没把图片看仔细。可这项研究告诉我们,即使模型正确提取了视觉信息,它的语言模块也可能像一个小人一样,在耳边吹风:“嘿,这个选项里有个‘上方’的词,听着挺顺耳,就选它吧!” 视觉信息被正确“体现”了吗?没有,它被词汇的“魅力”给打败了。

这对AI发展意味着什么?

空间推理能力,对于自动驾驶、机器人操作这类任务可是基础。如果模型连“杯子在桌子的左边”这种基本关系都搞不清,还怎么指望它能准确抓取物品?研究指出的“诱导选择”偏误,让咱们看到,单纯增加训练数据或算力,可能治标不治本。修正这种词汇层面的偏差,恐怕得从模型的决策机制入手,让它学会过滤掉语言上的“花招”,真正相信自己的“眼睛”——视觉特征才行。

这项研究等于给AI领域提了个醒:模型很聪明,但也容易犯低级错误。搞清楚它到底在哪个环节“栽跟头”,是让AI从“会说话”进化到“会理解”的关键一步。这挺值得咱们继续关注的吧?

热门栏目