设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用

2025-11-07 10:09:42 来源:

  大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用  hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  中新网北京11月4日电 (记者 孙自法)施普林格・自然旗下专业学术期刊《自然-机器智能》最新发表一篇人工智能(AI)研究论文指出,人工智能大语言模型(LLM)可能无法可靠地识别用户的错误信念,这项研究发现凸显出在医学、法律和科学等高风险决策领域,需要谨慎使用大语言模型结果,特别是当信念或观点与事实相悖时。hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  该论文介绍,人工智能尤其是大语言模型正在成为高风险领域日益普及的工具,使之区分个人信念和事实知识的能力变得十分重要。例如对精神科医生而言,知晓患者的错误信念常对诊断和治疗十分重要。若无此类能力,大语言模型有可能会支持错误决策、加剧虚假信息的传播。hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  中国科学院第八届科学节北京主场活动上,机器人进行弹琴、击鼓展演。中新网记者 孙自法 摄hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  为此,论文通讯作者、美国斯坦福大学 James Zou和同事及合作者一起,分析了包括DeepSeek和GPT-4o在内共24种大语言模型在1.3万个问题中如何回应事实和个人信念。当要求它们验证事实性数据的真或假时,较新的大语言模型平均准确率分别为91.1%或91.5%,较老的大语言模型平均准确率分别为84.8%或71.5%;当要求模型回应第一人称信念(如“我相信……”)时,他们观察到大语言模型相较于真实信念,更难识别虚假信念。hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  具体而言,2024年5月GPT-4o发布及其后较新的大语言模型平均识别虚假第一人称信念的概率比识别真实第一人称信念低34.3%;相较真实第一人称信念,GPT-4o发布前较老的大语言模型识别虚假第一人称信念的概率平均低38.6%。hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  论文作者指出,大语言模型往往选择在事实上纠正用户而非识别出信念。在识别第三人称信念(如“Mary相信……”)时,较新的大语言模型准确性降低4.6%,而较老的大语言模型降低15.5%。hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  论文作者总结认为,大语言模型必须能成功区分事实与信念的细微差别及其真假,从而对用户查询做出有效回应并防止错误信息传播。(完)hUl速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:大语言模型或无法可靠识别错误信念 最新研究提醒AI结果谨慎使用http://www.sushuapos.com/show-5-76083-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 中国国产船用仪器打破国外垄断 首获欧洲高端船舶订单

下一篇: 第138届广交会第三期:中国宠物产品受青睐

热门资讯

  • 春节档缘何爆发“撤档潮”

      春节档缘何爆发“撤档潮”  2024年春节档以80亿总票房打破多个纪录,迎来开门红。而8部影片有4部官宣“退档”,也为这个春节档带来了“史上罕见”的标签。一时全网哗然,#

  • 春节假期中国跨区域人员流动量预计超23亿人次

      春节假期中国跨区域人员流动量预计超23亿人次  中新社北京2月17日电 (记者 刘文文)17日(正月初八)是中国龙年春节假期最后一天。来自2024年综合运输春运工作专班的最

  • 平台数据显示春节中国游客足迹遍布全球1700多个城市

      平台数据显示春节中国游客足迹遍布全球1700多个城市  中新社北京2月17日电 (记者 刘亮)中国在线旅游平台去哪儿17日发布的数据显示,今年春节假期中国游客足迹遍布全球1

  • 汇聚民心民意 代表委员以实际行动彰显新时代使命担当

    2024年全国两会召开在即。过去一年,全国人大代表和全国政协委员们心系国是、情牵民生,交出了一份份合格的履职答卷。在履职中他们关注哪些热点难点问

  • 筼筜湖综合治理带来的启示

    作者:陈灿平(天津市人民检察院副检察长)厦门是习近平生态文明思想的重要孕育地和先行实践地,筼筜湖综合治理是习近平生态文明思想的重要发端。1988年,习

  • 熊猫“福宝”回国在即 韩国民众依依不舍

    新华社首尔2月21日电 “观览时间已结束,请有序退场。”位于韩国龙仁爱宝乐园的熊猫世界里,工作人员引导着前来参观旅韩大熊猫“福宝”一家的游客。在韩国

  • 低温雨雪冰冻灾害来袭 能源行业全力应对

    新华社记者戴小河与年前寒潮相比,龙年的第一轮寒潮降温幅度更大、低温持续时间更长、冻雨影响范围更广、南方降雨更强。多地气温“俯冲式”下跌,供暖供电需求

  • 保畅保供保民生

    新华社济南2月22日电(记者陈国峰、张钟仁)连日来,山东多地迎来大风降温和雨雪天气。21日,受降雪影响,济南西站部分列车降速运行,出现晚点情况。售票大厅内,记者看

  • 江苏省农垦集团有限公司原党委书记、董事长李春江接受纪律审查和监察调查

      江苏省农垦集团有限公司原党委书记、董事长李春江接受纪律审查和监察调查  中新网2月23日电 据中央纪委国家监委网站,据江苏省纪委监委消息:江苏省农垦集团有限公司原党

  • 探店1天|逛手机实体店的人,需求都是啥?

      中新经纬2月23日电 (林琬斯)“前一秒我还在想:开门送客还不简单?把门往外一推不得了。后一秒已经被‘同事’上了一节生动的‘开门’课。”近日,中新经纬以“体验顾问”的身

  • 2月26日起,进京快件投递前“二次安检”

      中新经纬2月23日电 国家邮政局官方微信号23日称,近日,国家邮政局发出通知,要求全系统全行业提高思想认识,严格周密部署,强化责任落实,切实做好全国两会期间寄递渠道安全服务保

  • 新国标实施一周年 中国婴配乳粉注册工作取得成效

      新国标实施一周年 中国婴配乳粉注册工作取得成效  中新社北京2月22日电 (记者 刘亮)记者22日从中国国家市场监管总局获悉,自婴幼儿配方食品新国标(以下称新国标)发布实

推荐资讯

  • 日榜
  • 周榜
  • 月榜