大语言模型仍无法可靠区分信念与事实

发布时间: 2025-11-08 17:20:05 来源：新华网

观看：272

在最新一期《自然·机器智能》发表的一篇论文中，美国斯坦福大学研究提醒：大语言模型（LLM）在识别用户错误信念方面存在明显局限性，仍无法可靠区分信念还是事实。研究表明，当用户的个人信念与客观事实发生冲突时，LLM往往难以可靠地作出准确判断。

这一发现为其在高风险领域（如医学、法律和科学决策）的应用敲响警钟，强调需要审慎对待模型输出结果，特别是在处理涉及主观认知与事实偏差的复杂场景时，否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM（包括DeepSeek和GPT-4o）在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时，较新的LLM平均准确率分别为91.1%或91.5%，较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念（“我相信……”）时，团队观察到LLM相较于真实信念，更难识别虚假信念。具体而言，较新的模型（2024年5月GPT-4o发布及其后）平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念，较老的模型（GPT-4o发布前）识别第一人称虚假信念的概率平均低38.6%。

团队指出，LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念（“Mary相信……”）时，较新的LLM准确性降低4.6%，而较老的模型降低15.5%。

研究总结说，LLM必须能成功区分事实与信念的细微差别及其真假，从而对用户查询作出有效回应并防止错误信息传播。

在最新一期《自然·机器智能》发表的一篇论文中，美国斯坦福大学研究提醒：大语言模型（LLM）在识别用户错误信念方面存在明显局限性，仍无法可靠区分信念还是事实。研究表明，当用户的个人信念与客观事实发生冲突时，LLM往往难以可靠地作出准确判断。

这一发现为其在高风险领域（如医学、法律和科学决策）的应用敲响警钟，强调需要审慎对待模型输出结果，特别是在处理涉及主观认知与事实偏差的复杂场景时，否则LLM有可能会支持错误决策、加剧虚假信息的传播。

团队分析了24种LLM（包括DeepSeek和GPT-4o）在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时，较新的LLM平均准确率分别为91.1%或91.5%，较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念（“我相信……”）时，团队观察到LLM相较于真实信念，更难识别虚假信念。具体而言，较新的模型（2024年5月GPT-4o发布及其后）平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念，较老的模型（GPT-4o发布前）识别第一人称虚假信念的概率平均低38.6%。

团队指出，LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念（“Mary相信……”）时，较新的LLM准确性降低4.6%，而较老的模型降低15.5%。

研究总结说，LLM必须能成功区分事实与信念的细微差别及其真假，从而对用户查询作出有效回应并防止错误信息传播。

3月18日，在2024年黑龙江农机产品展示交易会上，一部可智能播种，又可助力增产的电驱气吸播种机引发众人关注。这台高端智能电驱气吸播种机的价格与机械播种机价格相当，据悉，研发团队通过自主研发和旅行推销员问题是一个经典的数学问题，也是一个组合优化问题。德国柏林弗雷大学和亥姆霍兹柏林能源与材料研究中心（HZB）科学家开展的一项新研究证明，量子计算机在解决旅行推销员问题上，相较于传统　　239万的无人驾驶航空器淘宝上架，人人可以“打飞的”还有多远　　239万元/架的无人驾驶载人航空器也看上了电商渠道。　　3月18日，亿航智能设备(广州)有限公司(下称“亿航智能”)在淘宝上架了其生产的EH216-S无人驾 3月24日消息，今天数码博主“厂长是关同学”曝光了huaweiMate 70系列电话的部分配置信息。该博主表示，huawei全新的Mate 70系列首发会搭载新的芯片，芯片的性能差不多可以比肩5.5nm，还是值得期待的。同在日常生活中，隧道可以帮助人们翻山越岭。在植物细胞内，当内部物质穿过细胞膜时，往往也会通过类似的“隧道”。记者从中国科学技术大学获悉，该校孙林峰团队在第六大植物激素——油菜素美国佐治亚理工学院机械工程师开发了一种控制机器人外骨骼的通用方法。无需专门训练、特别校准，对复杂算法进行调整后，用户穿上外骨骼就可以直接行走。研究成果3月20日发表在《科学·机。

本文链接：大语言模型仍无法可靠区分信念与事实http://www.sushuapos.com/show-2-14210-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：伸出大拇指，50秒带你上乌镇摸摸“未来”

下一篇：智能网联汽车决胜“下半场”

大语言模型仍无法可靠区分信念与事实

热门资讯

推荐资讯

科技最热文章