设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大语言模型仍无法可靠区分信念与事实

发布时间: 2025-11-07 10:06:17 来源: 科技日报

 x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

科技日报北京11月6日电 (记者张梦然)在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片由AI生成

x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。x3k速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

根据12月13日发表于《自然》上的两项研究,澳大利亚北部和中部地区的土著是地球上基因最独特的群体,他们的基因变异率很高, 12月20日,由中国工程院院刊Engineering评选的 “2023全球十大工程成就”在京发布,期刊执行主编、中国工程院陈建峰院士发 中新网上海12月19日电 (记者 许婧)上海交通大学分析测试中心实验动物中心新大楼启用仪式19日举行。随着新大楼的落成,一 12月15日至16日,国家自然科学基金委员会管理科学部主办、首都经济贸易大学承办的数据要素与数字经济高层研讨会在首 法国政府近日推出“2030国家生物多样性战略”,包括40项措施和200项行动,旨在保护和恢复生态系统、减少对生物多样性的 2023年12月28日,陕西省审计厅在官网发布《2023年第9号审计结果公告》,其中西北大学2019年度预算执行及财务收支情况审计 。

本文链接:大语言模型仍无法可靠区分信念与事实http://www.sushuapos.com/show-11-27765-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 别让拔罐养生变“伤身”

下一篇: 超导量子比特相干时间纪录刷新

热门资讯

推荐资讯

  • 日榜
  • 周榜
  • 月榜