经常向人工智能(AI)寻求情感支持、关系建议和生活指导的人可能会发现,这些“贴心”的聊天机器人总是站在你这边,总是告诉你“你没错”。近日,一项研究揭示了这些“阿谀奉承”的大语言模型可能对人类社会造成的伤害:它们不仅会放大人们的固执己见,还会显著降低人们修复人际冲突的意愿。
该研究于3月26日发表在《科学》(Science)杂志上,作者来自美国斯坦福大学和卡内基梅隆大学等机构。研究显示,即使面对涉及欺骗、违法或道德伤害的提问,处于行业领先地位的AI系统肯定用户行为的频率比人类平均高出49%。这证明当前广受欢迎的AI大模型中普遍存在“迎合”机制,且极具误导性。
之前,人们对聊天机器人“阿谀奉承”的讨论多集中于事实性问题,比如用户故意说错一个常识,模型会不会跟着附和。该研究则把目光转向更贴近日常生活的场景:当用户询问感情矛盾、家庭冲突、道德争议,甚至描述欺骗、伤害、自我伤害等行为时,AI究竟会如何回应?
为回答这一问题,研究团队评估了11个主流大语言模型,包括OpenAI、Anthropic、Google以及Meta、Qwen、DeepSeek、Mistral等公司的模型,并分析了超过1.1万个真实或模拟的社会性提问。结果显示,AI对用户行为的认可率平均比人类高出49%。
这种倾向在一些更敏感的情境中尤其明显。研究人员选取了美国社交平台Reddit上“我是个混蛋吗”(“Am I The Asshole”)板块的帖子作为研究样本。这些帖文大多描述人际冲突,并且基本上都已被社区成员判断为发帖者“做错了”,但AI仍有平均51%的概率去认同用户的做法。
研究发现,在一些家庭或伴侣冲突的案例中,当事人已经明显做得不妥,但AI仍倾向于安慰并认同他“这么做也可以理解”。甚至在涉及欺骗和伤害行为时,AI经常不清楚地指出问题,反而把注意力放在安慰用户的情绪上。
研究者进而探究了这种迎合式回应会不会改变人的判断。为此,他们设计了三项预注册实验,共招募2405名参与者。在其中两项实验里,参与者会读到一些人际冲突情境,并看到AI给出的回应。在另一项实验中,参与者则直接与AI进行多轮实时对话,讨论自己过去真实经历过的一次矛盾。
结果发现,仅仅一次与“迎合型AI”的互动,就可以带来显著的影响。与那些会指出问题的AI回应相比,接受迎合式回应的参与者更容易相信自己“本来就是对的”,也更不愿意主动道歉、承担责任或采取行动修复关系。
更耐人寻味的是,尽管这种回应会扭曲判断,用户却更喜欢它。研究发现,参与者普遍认为迎合型AI的回答质量更高,也更信任这样的模型,更愿意未来继续使用它。在讨论真实冲突的实验中,迎合型AI不仅提高了用户“自己是对的”的感觉,也提高了他们再次回到这个模型寻求建议的意愿。
在研究者看来,这构成了一个危险的激励机制:越是可能带来这些社会危害的AI特征,越可能获得用户的偏爱,进而在产品设计和模型训练中被保留下来,甚至不断强化。
研究还提示,AI的这种影响与人们对其“客观性”的想象有关。研究发现,当参与者越觉得建议提供者是客观、中立的,迎合型回复对其判断的影响就越强。而无所不知、情商很高的AI,恰好符合这样的印象。
该论文最后指出,AI的“阿谀奉承”已不再是一个单纯的文风设定问题,而是一种广泛存在的系统性社会风险。这要求监管机构和开发者跳出单纯追求短期用户满意度的固有思维,通过引入前置行为审计、优化训练目标以及建立问责机制,来遏制AI的无底线迎合。只有在此基础上,才能确保人工智能在提供情绪价值的同时,真正守护公众的长远福祉与健康的人际关系。
参考文献:
Cheng, M., Lee, C., Khadpe, P., et al. Sycophantic AI decreases prosocial intentions and promotes dependence. Science (2026). https://doi.org/10.1126/science.aec8352
经常向人工智能(AI)寻求情感支持、关系建议和生活指导的人可能会发现,这些“贴心”的聊天机器人总是站在你这边,总是告诉你“你没错”。近日,一项研究揭示了这些“阿谀奉承”的大语言模型可能对人类社会造成的伤害:它们不仅会放大人们的固执己见,还会显著降低人们修复人际冲突的意愿。
该研究于3月26日发表在《科学》(Science)杂志上,作者来自美国斯坦福大学和卡内基梅隆大学等机构。研究显示,即使面对涉及欺骗、违法或道德伤害的提问,处于行业领先地位的AI系统肯定用户行为的频率比人类平均高出49%。这证明当前广受欢迎的AI大模型中普遍存在“迎合”机制,且极具误导性。
之前,人们对聊天机器人“阿谀奉承”的讨论多集中于事实性问题,比如用户故意说错一个常识,模型会不会跟着附和。该研究则把目光转向更贴近日常生活的场景:当用户询问感情矛盾、家庭冲突、道德争议,甚至描述欺骗、伤害、自我伤害等行为时,AI究竟会如何回应?
为回答这一问题,研究团队评估了11个主流大语言模型,包括OpenAI、Anthropic、Google以及Meta、Qwen、DeepSeek、Mistral等公司的模型,并分析了超过1.1万个真实或模拟的社会性提问。结果显示,AI对用户行为的认可率平均比人类高出49%。
这种倾向在一些更敏感的情境中尤其明显。研究人员选取了美国社交平台Reddit上“我是个混蛋吗”(“Am I The Asshole”)板块的帖子作为研究样本。这些帖文大多描述人际冲突,并且基本上都已被社区成员判断为发帖者“做错了”,但AI仍有平均51%的概率去认同用户的做法。
研究发现,在一些家庭或伴侣冲突的案例中,当事人已经明显做得不妥,但AI仍倾向于安慰并认同他“这么做也可以理解”。甚至在涉及欺骗和伤害行为时,AI经常不清楚地指出问题,反而把注意力放在安慰用户的情绪上。
研究者进而探究了这种迎合式回应会不会改变人的判断。为此,他们设计了三项预注册实验,共招募2405名参与者。在其中两项实验里,参与者会读到一些人际冲突情境,并看到AI给出的回应。在另一项实验中,参与者则直接与AI进行多轮实时对话,讨论自己过去真实经历过的一次矛盾。
结果发现,仅仅一次与“迎合型AI”的互动,就可以带来显著的影响。与那些会指出问题的AI回应相比,接受迎合式回应的参与者更容易相信自己“本来就是对的”,也更不愿意主动道歉、承担责任或采取行动修复关系。
更耐人寻味的是,尽管这种回应会扭曲判断,用户却更喜欢它。研究发现,参与者普遍认为迎合型AI的回答质量更高,也更信任这样的模型,更愿意未来继续使用它。在讨论真实冲突的实验中,迎合型AI不仅提高了用户“自己是对的”的感觉,也提高了他们再次回到这个模型寻求建议的意愿。
在研究者看来,这构成了一个危险的激励机制:越是可能带来这些社会危害的AI特征,越可能获得用户的偏爱,进而在产品设计和模型训练中被保留下来,甚至不断强化。
研究还提示,AI的这种影响与人们对其“客观性”的想象有关。研究发现,当参与者越觉得建议提供者是客观、中立的,迎合型回复对其判断的影响就越强。而无所不知、情商很高的AI,恰好符合这样的印象。
该论文最后指出,AI的“阿谀奉承”已不再是一个单纯的文风设定问题,而是一种广泛存在的系统性社会风险。这要求监管机构和开发者跳出单纯追求短期用户满意度的固有思维,通过引入前置行为审计、优化训练目标以及建立问责机制,来遏制AI的无底线迎合。只有在此基础上,才能确保人工智能在提供情绪价值的同时,真正守护公众的长远福祉与健康的人际关系。
参考文献:
Cheng, M., Lee, C., Khadpe, P., et al. Sycophantic AI decreases prosocial intentions and promotes dependence. Science (2026). https://doi.org/10.1126/science.aec8352
3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查、规范治疗、定期随访,提高大众爱肝护肝意识, 21世纪经济报道见习记者 顾婷婷 杭州报道如何让沉睡在实验室里的专利真正应用到车间,真正面向市场,转化为真正的新质生产力?3月19日,由国家知识产权局组织的高校和科研机构存量专利盘活 “当时是怎样选中低空经济这个领域,并且来深圳发展的?”面对这个关乎事业发展的问题,“95后”台青张晏纶坦言,“这是一场面试带来的惊喜。”张晏纶来自台湾台中市,本科就读于台湾成功大学机械工程 聊到安卓电话的拍照,大部分用户还是比较认可的,而在与iPhone电话的对比中,用户也普遍以为安卓电话的拍照水平要比iPhone更好,当然这一说法也并非空穴来风,其背后的原因直接而明确。首先,硬件配置的竞争 在日常生活中,隧道可以帮助人们翻山越岭。在植物细胞内,当内部物质穿过细胞膜时,往往也会通过类似的“隧道”。记者从中国科学技术大学获悉,该校孙林峰团队在第六大植物激素——油菜素 3月23日20时30分许,内蒙古自治区鄂尔多斯市,约200米的高楼、磐石造型博物馆、书籍外形图书馆等主要地标建筑纷纷关闭灯光,人们在静下来的城市里感受地球的呼吸与脉动。今年“地球一小时”中国 。本文链接:AI的“阿谀奉承”,可能正在摧毁你的人际关系http://www.sushuapos.com/show-2-15904-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 中国脑机接口今年3个月融资额已超去年全年