设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

分不清9.9与9.11谁大? 大模型数学能力堪忧

发布时间: 来源:

  分不清9.9与9.11谁大? 大模型数学能力堪忧  f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  每经记者 可杨 每经编辑 梁枭f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  13.11%和13.8%哪个大?9.9和9.11哪个大?f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  7月17日,有大模型企业人士向记者表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  大模型比大小“翻车”f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域,也成了一场针对大模型数学能力的小测。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在《每日经济新闻》记者7月17日的测试中,对于13.11%与13.8%谁大的问题,除了智谱清言外,文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示,在比较13.11%和13.8%时,13.11%是更大的数值。这是因为当比较两个百分数时,首先比较整数部分,如果它们相同,则比较小数部分。在这里,两个数的整数部分都是13,但13.11的小数部分11大于13.8的小数部分8,因此13.11%大于13.8%。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  从推理过程判断,可能由于小数点后数位不同,大模型在比较过程中产生了幻觉。经过两轮提问后,智谱清言给出了正确回答。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  当记者把问题换成“9.9与9.11谁大”,零一万物的万知大模型等同样在一开始给出了错误答案,当记者进一步追问“9.11减9.9等于多少”,甚至有大模型给出了“0.21”的答案。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  万知大模型的推理过程稍显混乱:在比较9.9和9.11时,由于整数部分都是9,所以比较小数点后的第一位数字。9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9小于10,所以在比较小数点后第二位数字时,9.9的小数点后第二位是0(隐含的),而9.11的小数点后第二位是1。因此,9.9的小数点后第二位数字(隐含的0)小于9.11的小数点后第二位数字(1),所以9.9小于9.11。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  随后,记者向大模型提问:为何会出现有大模型认为13.11大于13.8的情况?f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  ChatGPT给出的回答显示,出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括:数值理解错误,有时系统可能会误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误。因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  文心一言给出的解答则是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  另一方面,可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。因此,在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。另外,模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  这个问题不难解决f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  7月17日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,其实就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  这也并非大模型的数学能力首次受到关注。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  综 合 来 看 ,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一(同比增长率计算)和任务二(毛利率计算)中均获得了较高的分数,但在任务三(复合增长率计算)中未能给出正确答案。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。f8O速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  中新经纬2月18日电 据微信号“中国铁路”18日消息,2月17日正月初八,春节假期最后一天,全国铁路发送旅客1606.7万人次,连续4天刷新春运单日旅客发送量历史新高;春节假期(2月10日至17日),全国铁路累计发送旅客9946万人次   傅园慧称在长白山包车被勒索 当地交通部门:正按流程处理  中新网北京2月17日电(记者 刘星晨)17日,游泳世界冠军傅园慧通过社交平台发布求助帖称,她在吉林长白山包车出行时遭遇勒索,询问网友是否需要报警。  图片 中国考古,在许多外国人甚至中国人看来,一度非常神秘。近日记者在与中国考古学家的交流中了解到,从考古技术发展、到公众考古创新,再到中外考古交流,中国正不断构建具有中国特色、中国风格、中国气派的考古 新华社记者熊轩昂春风送暖,阳光和煦。2月21日上午,昆明市2024年“春风行动”暨“春暖农民工”服务行动专场招聘会在南坝人力资源市场举行。记者在现场走访观察到:参加招聘会的企业涉及领域广,涵盖智能制 新华社南昌2月22日电(记者刘佳敏)“江西银河表计有限公司招普工50名,薪资大约4200至4800元。这个公司离立新很近,你有空可以去参观一下。”近日,在九江市永修县立新乡黄婆井村的招聘会现场,村干部和志愿者   中新经纬2月23日电 (林琬斯)“前一秒我还在想:开门送客还不简单?把门往外一推不得了。后一秒已经被‘同事’上了一节生动的‘开门’课。”近日,中新经纬以“体验顾问”的身份,在华为智能生活馆为顾客提供服务,在迎来送 。

本文链接:分不清9.9与9.11谁大? 大模型数学能力堪忧http://www.sushuapos.com/show-5-22261-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 光伏行业“组团”转战中东 多家公司拿下沙特大单

下一篇: 暑期档何以如此热力十足

热门资讯

  • 四协会倡议酒店等不再主动提供一次性塑料用品

      中新经纬1月12日电 中国饭店协会、中国旅游饭店业协会、中国循环经济协会、中国消费者协会12日联合发文,倡议住宿业减少一次性塑料用品使用。  倡议称:一、深刻认识住宿

  • 女子挺5个月孕肚征婚?重庆江北警方通报

      女子挺5个月孕肚征婚?重庆江北警方通报  中新网1月11日电 据重庆市公安局江北区分局官方微博消息,近日,网传“女子挺5个月孕肚征婚 ”视频,引发网友关注。经查,该女子陈某

  • 公安部:开展整治“飙车炸街”专项行动,去年查处案件7.4万起

      公安部:开展整治“飙车炸街”专项行动,去年查处案件7.4万起  中新网1月11日电 据公安部网站消息,2023年,全国公安交管部门持续强化违法犯罪打击整治和问题隐患治理,不断深

  • 官方:支持医药研发创新,促进中药传承创新发展

      中新经纬1月11日电 据国家药品监督管理局网站消息,1月9日至10日,全国药品监督管理工作会议在北京召开。  会议对2024年药品监管工作作了四个方面具体部署。一是打好防控

  • 佐力药业新药获批 华东医药能否打赢大单品保卫战?

      佐力药业新药获批 华东医药能否打赢大单品保卫战?  每经记者 陈星 每经编辑 文多  华东医药(SZ000963,股价35.18元,市值617.21亿元)和佐力药业(SZ300181,股价10.70元,市

  • 老赖“要求美颜”露马脚被抓

      老赖“要求美颜”露马脚被抓  本报讯 记者黄辉 通讯员元春华 武慧慧 “能不能给我开个美颜?”被执行人在法院抖音里看到自己的失信行为被曝光后,竟然笑嘻嘻地在抖音评论

  • 人社部:整治虚假职业技能培训

      人社部:整治虚假职业技能培训  人社部近日发布通知,要求规范培训机构办学,严禁以招生费等名义直接或变相买卖符合补贴条件的生源,以联合办学、培训合作等名义违规转包政府

  • 中国消费者“点燃”奢侈品市场

      买买买!去年中国奢侈品市场达到6077亿元,约占全球22%   中国消费者“点燃”奢侈品市场  羊城晚报记者 陈泽云  中国人“买买买”奢侈品的热情和实力又回归了!  近

  • 160名俄罗斯“小套娃”跨境体验中华文化

    2月19日至22日,以“文化艺术交流中俄世代友好”为主题的中俄文化艺术交流周暨冰雪旅游消费季活动在黑龙江省鹤岗市举行,由160名俄罗斯青少年组成的代

  • 甘肃成县:务虚求实明方向 凝心聚力鼓干劲

    中国经济导报 中国发展网讯 2月20日,龙年春节热闹欢乐的氛围还未散去,甘肃成县就以开局就是决战的干劲、起步就是冲刺的拼劲的崭新面貌召开2024年工作务虚会,

  • 2月电影票房破100亿,传媒板块多股涨停,行业有望持续繁荣

      2月电影票房破100亿,传媒板块多股涨停,行业有望持续繁荣  2月23日,传媒板块盘中持续走强,截至发稿,宣亚国际20%涨停,赛因集团涨超19%,文投控股、天威视讯、中视传媒等多股涨

  • 我跨境电商占韩海外直购市场近半份额

      我跨境电商占韩海外直购市场近半份额  作者 杨明  凭借“高性价比”和“低物流费”等优势,中国跨境电商企业已占据韩国海外直购市场的近一半份额,本地化服务的提升也

推荐资讯

  • 日榜
  • 周榜
  • 月榜