一聚教程网:一个值得你收藏的教程网站

最新下载

热门教程

后训练使大语言模型更偏离人类行为模式

时间:2026-06-01 08:21:01 编辑:袖梨 来源:一聚教程网

后训练使大语言模型更偏离人类行为模式。日前,一项来自arXiv的最新实证研究(编号2605.07632v2)给出了明确结论:无论是何种模型家族、多大尺寸、何种目标,后训练这一环节都持续拉大了AI与人类行为模式的差距。研究团队推出的Psych-201数据集为量化这种偏离提供了新标尺。

后训练为何让模型越来越不像人?

后训练,也就是把基础模型打磨成实用助手的阶段,居然在削弱AI对人类行为的模拟能力。这听起来挺反直觉的,不是吗?按理说,经过指令微调和人类反馈强化学习,模型应该更懂人类才对。然而Psych-201的数据显示,事实正好相反。

新手往往比老手更偏离。

研究还发现,后训练带来的这种错位并非静止不变。在新一代的模型版本中,这种偏离反而更加显著。没错,哪怕基础模型本身已经具备一定的人类行为匹配度,经过后训练“升级”后,反而更不接地气了。这背后到底是什么机制在起作用?论文目前给出了现象,但深层原因仍需进一步探究。

这算是一个扎心的发现。

毕竟,大语言模型正越来越多地被用作人类参与者的替代品——在社科调查、产品测试甚至心理学实验中,AI被试正在取代真人。但研究结论却表明,经过后训练调校后的模型,其行为模式与真实人类背道而驰。这意味着,如果实验者拿这些“被优化”的模型做替代品,结果可能失真。

是真的,后训练正在拉大鸿沟。

研究覆盖了多个模型家族,包括不同参数规模和优化目标,结论都是一致的:后训练环节是导致行为偏差的主要推手。咱们可以想象一下,基础模型像个未经雕琢的天然语言系统,而后训练则像用特定模板强行矫正,结果反而丢掉了人类语言中的自然模糊性和多样性。

这一结论其实对AI安全有直接警示。

如果后训练持续让模型偏离人类模式,那么基于这些模型做的任何人类行为模拟都值得怀疑。更关键的是,随着模型代际更新,这种偏差似乎在加速扩大。何来“让AI更懂人类”的行业共识?至少从这份研究来看,后训练并没有让模型更靠近人类,反倒是越跑越远了。

热门栏目