一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

GroupToM-Bench基准揭示多模态大模型群体心智与社会涌现缺陷

时间:2026-06-04 13:20:02 编辑:袖梨 来源:一聚教程网

GroupToM-Bench基准揭示多模态大模型群体心智与社会涌现缺陷

一项名为GroupToM-Bench的新基准日前正式发布,它专门用来测试多模态大模型在群体层面的“心智理论”能力。结果发现,这些模型在理解个体心理状态方面虽有进步,但面对群体心智和社会涌现这种更复杂的任务时,表现得相当糟糕。说白了,模型能看懂一个人的想法,却搞不懂一群人是怎么互动、怎么达成共识、又怎么产生冲突的。

群体心智,为什么比个体心智难这么多?

咱们都知道,人的想法不是孤立的。几个人聚在一起,会产生从众心理、社会张力、结构性约束——这些因素叠加起来,就会形成一种“非线性”的集体行为。就好比一堆沙子,单个沙粒没什么特别,但堆多了就能形成沙丘,形态完全不一样。GroupToM-Bench正是抓住了这个关键点:集体行为不是简单地把每个人的意图加起来就能还原的。现有的大模型呢?它们恰恰在这点上翻了车。

个体ToM还行,群体ToM就露馅了

研究者拿GroupToM-Bench去测了市面上主流的多模态大模型,结果挺让人意外的。在个体层面的心智理论任务上,这些模型表现还算不错,能判断“这个人知道什么”“那个人相信什么”。可一旦场景切换到群体层面——比如一个小团体内部发生意见分歧,看模型能不能预测最终谁会妥协、谁会坚持——它们的表现就急转直下。这缺陷呢,其实挺严重的:真要是让模型去模拟社会谈判、群体决策,它能不出乱子吗?

基准到底测了哪些具体能力?

GroupToM-Bench的设计挺有讲究,它把群体心智拆成几个核心维度:

  • 社会张力识别——模型得看出群体里谁和谁有矛盾,矛盾如何影响后续互动;
  • 从众动力学——当多数人和少数人意见不同时,模型能否预判少数人会不会改变立场;
  • 结构性约束——比如群体中有领导者和追随者的设定,这种结构怎么限制每个人的行动选择。

每个维度都用了多模态场景——不光看文字对话,还得结合图像、视频里的非语言线索(比如表情、姿态)来做综合判断。这可不像考试题,更像是一道道真实世界的“群体剧本”,模型得真正“懂”社会,才能答对。

社会涌现,模型还没学会的课

社会涌现这个概念,可能很多人觉得陌生。它指的是:个体之间简单的互动规则,能自发产生复杂的集体现象,比如舆论形成、群体智慧、甚至群体狂热。GroupToM-Bench特别强调这种“非线性”特性——不是1+1=2,而是1+1可能等于0、等于3,取决于社会情境。咱们的模型呢,目前还是线性思维的产物,它在训练数据里没见过那么多“人是会互相影响的”真实案例,自然就容易犯错。

未来方向:多模态群体推理,路还很长

这篇arXiv上的论文(编号2606.04184)给行业敲了个警钟:大模型想要走向真正的通用智能,光会推理物理世界不够,还得有个“社会世界模型”。GroupToM-Bench就像是给模型设的一门社会学入学考试,目前大多数模型还没及格。不过换个角度看,这也给出了明确的改进方向——只要针对群体心智和社会涌现这些短板去训练、去设计评估,咱们离能真正“懂人”的AI就又近了一步。

热门栏目