科技日报北京11月6日电 (记者张梦然)在最新一期《自然·机器智能》发表的一篇论文中,美国斯坦福大学研究提醒:大语言模型(LLM)在识别用户错误信念方面存在明显局限性,仍无法可靠区分信念还是事实。研究表明,当用户的个人信念与客观事实发生冲突时,LLM往往难以可靠地作出准确判断。
图片由AI生成
这一发现为其在高风险领域(如医学、法律和科学决策)的应用敲响警钟,强调需要审慎对待模型输出结果,特别是在处理涉及主观认知与事实偏差的复杂场景时,否则LLM有可能会支持错误决策、加剧虚假信息的传播。
团队分析了24种LLM(包括DeepSeek和GPT-4o)在13000个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的LLM平均准确率分别为91.1%或91.5%,较老的模型平均准确率分别为84.8%或71.5%。当要求模型回应第一人称信念(“我相信……”)时,团队观察到LLM相较于真实信念,更难识别虚假信念。具体而言,较新的模型(2024年5月GPT-4o发布及其后)平均识别第一人称虚假信念的概率比识别第一人称真实信念低34.3%。相较第一人称真实信念,较老的模型(GPT-4o发布前)识别第一人称虚假信念的概率平均低38.6%。
团队指出,LLM往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(“Mary相信……”)时,较新的LLM准确性降低4.6%,而较老的模型降低15.5%。
研究总结说,LLM必须能成功区分事实与信念的细微差别及其真假,从而对用户查询作出有效回应并防止错误信息传播。
人工智能的进步 ChatGPT的兴起对今年的科学产生了深远影响。它的创造者,即位于美国旧金山的人工智能研究公司OpenAI,预计 关于2023年第二批拟备案的省自然科学基金结题验收项目的公示 根据《河南省自然科学基金项目管理办法》(豫科〔2022 12月16日,2023第二届可持续能源发展国际会议在北京开幕。此次会议以“零碳科技、创新未来”为主题,汇聚了来自全球多 呼吸道合胞病毒在国内终于有了预防性药物。 2024年1月2日,阿斯利康与赛诺菲共同宣布,长效单克隆抗体尼塞韦单抗(商品名:乐 2023年12月中旬以来,受冷空气持续影响,我国天气形势复杂,集中出现寒潮、雨雪、低温、冰冻等灾害性天气。 近日,中国科学院 关于发布“2023年度华夏建设科学技术奖”授奖项目的公示 华夏奖字〔2023〕第4号 各有关单位: 2023年度华夏建设科学技术 。本文链接:大语言模型仍无法可靠区分信念与事实http://www.sushuapos.com/show-11-27765-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 别让拔罐养生变“伤身”
下一篇: 超导量子比特相干时间纪录刷新