真实图像反而降低视觉语言模型的词汇判断准确性

时间：2026-05-29 18:36:01 编辑：袖梨来源：一聚教程网

一项来自arXiv的新研究揭示了一个反直觉的现象：对于视觉语言模型（VLM）来说，观看真实的图像反而可能让它们在词汇判断上表现更差。这份编号为arXiv:2605.27315v1的论文以人类的具体性与意象评分为基准，发现现实图像情境非但没有提升模型与人类判断的一致性，反而常常造成伤害。

研究团队使用人类给出的具体性与意象评分作为测试标准，这类评分涵盖了从高度抽象到极具画面感的词汇。按理说，给模型看一张“苹果”的真实图片，它应该能更容易判断这个词有多“具体”、多“有画面感”，是吗？但实验结果显示，模型在看到真实图像后，其输出的评分与人类评分的对齐度反而下降了。这确实挺让人意外的，因为它挑战了一个基本假设——视觉信息一定能辅助语言理解。

论文标题《Real Images, Worse Judgments》直白地道出了核心结论。为什么会这样？一个可能的原因是，真实图像携带了大量无关的“上下文干扰”。比如当VLM看到一张“自由女神像”的照片，它可能被照片中的人物、天气或背景色调分散注意力，从而对“自由”这一核心词汇的抽象属性判断失准。模型没能像人类那样聚焦于词本身的核心意象，反而被照片里的“乱象”带偏了。

这其实暴露了当下多模态模型的一个短板：它们很难区分“有用的视觉证据”和“多余的图像背景”。当词汇越抽象，这种干扰效应就越明显。你凭什么认为给模型塞进一张照片，它就一定能更聪明？对于“爱情”“正义”这类词汇，图像提供的信息和语言提供的信号几乎不在一个层面，硬要加图反而会拉低模型的判断质量。

这项研究对AI行业的意义在于，它告诉我们不能无脑地依赖多模态融合。OpenAI的Sam Altman及其团队在推进GPT-4o等模型时，一直在强调多模态能力的整合。但这份新结果提醒我们，图像输入的时机和筛选可能比“多模态”本身更重要。地平线机器人、摩尔线程等公司专注于打造多模态的端侧芯片和模型，也得把这种“图像干扰”的风险考虑进去才行。

一句话：给VLM看真实图像，未必是好事。在词汇判断的精细任务上，算得少反而可能更准。想要模型真正理解词汇的内涵，得先帮它学会“过滤”那些没用的画面。

推荐专题

最新下载

热门教程

真实图像反而降低视觉语言模型的词汇判断准确性

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程