后训练使大语言模型更偏离人类行为模式

时间：2026-06-01 08:21:01 编辑：袖梨来源：一聚教程网

后训练使大语言模型更偏离人类行为模式。日前，一项来自arXiv的最新实证研究（编号2605.07632v2）给出了明确结论：无论是何种模型家族、多大尺寸、何种目标，后训练这一环节都持续拉大了AI与人类行为模式的差距。研究团队推出的Psych-201数据集为量化这种偏离提供了新标尺。

后训练为何让模型越来越不像人？

后训练，也就是把基础模型打磨成实用助手的阶段，居然在削弱AI对人类行为的模拟能力。这听起来挺反直觉的，不是吗？按理说，经过指令微调和人类反馈强化学习，模型应该更懂人类才对。然而Psych-201的数据显示，事实正好相反。

新手往往比老手更偏离。

研究还发现，后训练带来的这种错位并非静止不变。在新一代的模型版本中，这种偏离反而更加显著。没错，哪怕基础模型本身已经具备一定的人类行为匹配度，经过后训练“升级”后，反而更不接地气了。这背后到底是什么机制在起作用？论文目前给出了现象，但深层原因仍需进一步探究。

这算是一个扎心的发现。

毕竟，大语言模型正越来越多地被用作人类参与者的替代品——在社科调查、产品测试甚至心理学实验中，AI被试正在取代真人。但研究结论却表明，经过后训练调校后的模型，其行为模式与真实人类背道而驰。这意味着，如果实验者拿这些“被优化”的模型做替代品，结果可能失真。

是真的，后训练正在拉大鸿沟。

研究覆盖了多个模型家族，包括不同参数规模和优化目标，结论都是一致的：后训练环节是导致行为偏差的主要推手。咱们可以想象一下，基础模型像个未经雕琢的天然语言系统，而后训练则像用特定模板强行矫正，结果反而丢掉了人类语言中的自然模糊性和多样性。

这一结论其实对AI安全有直接警示。

如果后训练持续让模型偏离人类模式，那么基于这些模型做的任何人类行为模拟都值得怀疑。更关键的是，随着模型代际更新，这种偏差似乎在加速扩大。何来“让AI更懂人类”的行业共识？至少从这份研究来看，后训练并没有让模型更靠近人类，反倒是越跑越远了。