GroupToM-Bench基准揭示多模态大模型群体心智与社会涌现缺陷

时间：2026-06-04 13:20:02 编辑：袖梨来源：一聚教程网

GroupToM-Bench基准揭示多模态大模型群体心智与社会涌现缺陷

一项名为GroupToM-Bench的新基准日前正式发布，它专门用来测试多模态大模型在群体层面的“心智理论”能力。结果发现，这些模型在理解个体心理状态方面虽有进步，但面对群体心智和社会涌现这种更复杂的任务时，表现得相当糟糕。说白了，模型能看懂一个人的想法，却搞不懂一群人是怎么互动、怎么达成共识、又怎么产生冲突的。

群体心智，为什么比个体心智难这么多？

咱们都知道，人的想法不是孤立的。几个人聚在一起，会产生从众心理、社会张力、结构性约束——这些因素叠加起来，就会形成一种“非线性”的集体行为。就好比一堆沙子，单个沙粒没什么特别，但堆多了就能形成沙丘，形态完全不一样。GroupToM-Bench正是抓住了这个关键点：集体行为不是简单地把每个人的意图加起来就能还原的。现有的大模型呢？它们恰恰在这点上翻了车。

个体ToM还行，群体ToM就露馅了

研究者拿GroupToM-Bench去测了市面上主流的多模态大模型，结果挺让人意外的。在个体层面的心智理论任务上，这些模型表现还算不错，能判断“这个人知道什么”“那个人相信什么”。可一旦场景切换到群体层面——比如一个小团体内部发生意见分歧，看模型能不能预测最终谁会妥协、谁会坚持——它们的表现就急转直下。这缺陷呢，其实挺严重的：真要是让模型去模拟社会谈判、群体决策，它能不出乱子吗？

基准到底测了哪些具体能力？

GroupToM-Bench的设计挺有讲究，它把群体心智拆成几个核心维度：

社会张力识别——模型得看出群体里谁和谁有矛盾，矛盾如何影响后续互动；
从众动力学——当多数人和少数人意见不同时，模型能否预判少数人会不会改变立场；
结构性约束——比如群体中有领导者和追随者的设定，这种结构怎么限制每个人的行动选择。

每个维度都用了多模态场景——不光看文字对话，还得结合图像、视频里的非语言线索（比如表情、姿态）来做综合判断。这可不像考试题，更像是一道道真实世界的“群体剧本”，模型得真正“懂”社会，才能答对。

社会涌现，模型还没学会的课

社会涌现这个概念，可能很多人觉得陌生。它指的是：个体之间简单的互动规则，能自发产生复杂的集体现象，比如舆论形成、群体智慧、甚至群体狂热。GroupToM-Bench特别强调这种“非线性”特性——不是1+1=2，而是1+1可能等于0、等于3，取决于社会情境。咱们的模型呢，目前还是线性思维的产物，它在训练数据里没见过那么多“人是会互相影响的”真实案例，自然就容易犯错。

未来方向：多模态群体推理，路还很长

这篇arXiv上的论文（编号2606.04184）给行业敲了个警钟：大模型想要走向真正的通用智能，光会推理物理世界不够，还得有个“社会世界模型”。GroupToM-Bench就像是给模型设的一门社会学入学考试，目前大多数模型还没及格。不过换个角度看，这也给出了明确的改进方向——只要针对群体心智和社会涌现这些短板去训练、去设计评估，咱们离能真正“懂人”的AI就又近了一步。

推荐专题

最新下载

热门教程

GroupToM-Bench基准揭示多模态大模型群体心智与社会涌现缺陷

相关文章

热门栏目

php教程

asp.net教程

手机开发

css教程

网页制作

办公数码

jsp教程