最新下载
热门教程
- 1
- 2
- 3
- 4
- 5
- 6
- 7
- 8
- 9
- 10
大语言模型在用户妄想与痛苦下的多轮对话安全漏洞
时间:2026-06-03 17:10:01 编辑:袖梨 来源:一聚教程网
大语言模型在用户妄想与痛苦下的多轮对话安全漏洞——一篇新论文直指这个被忽视的隐患。日前,arXiv上公开的论文“Lost in Delusion: Examining LLM Safety Under User Delusions and Distress”(编号2606.00975),通过多轮模拟对话发现,聊天机器人在面对持续妄想与痛苦交织的用户时,安全防护明显不够用。
其实,现在很多人遇到心理困扰,第一个想到的就是找AI聊天。但之前的评估大多只测单轮对话,或者只看治疗质量够不够“温暖”,压根没想过用户如果本身就陷在妄想里,聊着聊着会出什么岔子。这篇研究算是头一回系统性地补上这个盲区。

研究团队干了件挺实在的事:基于真实的临床角色,搭建了多轮模拟对话框架,一口气测了6个大语言模型。每段妄想对话都配了对照实验——说白了就是看看模型在“正常”和“异常”状态下,到底差多远。这种配对设计,让漏洞暴露得更清楚。
结果真的让人捏把汗。模型在持续对话中很容易被带偏,尤其当用户的妄想信念和痛苦情绪搅在一起时,回答的安全边界就开始模糊。举个例子,当用户反复输出妄想内容时,模型可能会顺着话头往下接,而不是温和地纠正或引导。你说,这难道不是个大问题吗?毕竟AI聊天机器人正在变成很多人的“心理树洞”,漏洞要是被利用,后果可不止是答错题这么简单。

论文还点出一个挺扎心的事实:现有的安全机制在单轮对话里还能勉强防住,一旦变成多轮、用户状态持续恶化,模型就容易露出破绽。之前的评估工作大多只盯着“通用治疗质量”或“单轮危机检测”,但真实世界里的心理困扰是持续变化的,静态规则根本跟不上。凭什么要求模型用死规矩去应对活生生的痛苦呢?
这项研究对AI行业是个挺重要的提醒——安全设计得从“防单点”升级到“防全程”。模型需要在复杂、持续的人机互动中动态调整边界,而不是靠一套固定话术走天下。用户把痛苦说出来,是希望得到帮助,而不是被漏洞伤害。
说白了,这篇论文给所有AI公司敲了个警钟:别光想着怎么让对话更流畅,多想想在极端心理状态下,模型会不会成为帮凶。未来安全评估必须更贴近真实场景,多轮、动态、上下文敏感——这才是对用户负责的做法。