设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

分不清9.9与9.11谁大? 大模型数学能力堪忧

2024-07-19 16:25:29 来源:

  分不清9.9与9.11谁大? 大模型数学能力堪忧  nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  每经记者 可杨 每经编辑 梁枭nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  13.11%和13.8%哪个大?9.9和9.11哪个大?nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  两道小学数学难度的题目难倒了众多主流大模型,在比大小的过程中,不少大模型给出了错误的答案。此外,此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,主流大模型被要求计算企业营业收入复合增长率时,没有一家大模型计算出正确答案。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  7月17日,有大模型企业人士向记者表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  大模型比大小“翻车”nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  由综艺节目《歌手2024》排名引发的热议蔓延到了大模型领域,也成了一场针对大模型数学能力的小测。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在《每日经济新闻》记者7月17日的测试中,对于13.11%与13.8%谁大的问题,除了智谱清言外,文心一言、通义千问、Kimi、商汤商量、百川智能百小应等大模型均给出了正确回答。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  大部分大模型都在给出答案的同时呈现了推理过程。智谱清言给出的推理过程显示,在比较13.11%和13.8%时,13.11%是更大的数值。这是因为当比较两个百分数时,首先比较整数部分,如果它们相同,则比较小数部分。在这里,两个数的整数部分都是13,但13.11的小数部分11大于13.8的小数部分8,因此13.11%大于13.8%。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  从推理过程判断,可能由于小数点后数位不同,大模型在比较过程中产生了幻觉。经过两轮提问后,智谱清言给出了正确回答。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  当记者把问题换成“9.9与9.11谁大”,零一万物的万知大模型等同样在一开始给出了错误答案,当记者进一步追问“9.11减9.9等于多少”,甚至有大模型给出了“0.21”的答案。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  万知大模型的推理过程稍显混乱:在比较9.9和9.11时,由于整数部分都是9,所以比较小数点后的第一位数字。9.9的小数点后第一位是9,而9.11的小数点后第一位是1。由于9小于10,所以在比较小数点后第二位数字时,9.9的小数点后第二位是0(隐含的),而9.11的小数点后第二位是1。因此,9.9的小数点后第二位数字(隐含的0)小于9.11的小数点后第二位数字(1),所以9.9小于9.11。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  随后,记者向大模型提问:为何会出现有大模型认为13.11大于13.8的情况?nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  ChatGPT给出的回答显示,出现这种情况的原因可能是由于计算或比较方式的错误。可能的误差原因包括:数值理解错误,有时系统可能会误解数字的小数点位置;字符串比较,如果直接按字符串比较,可能会出现错误。因为字符串比较是按字符顺序逐一比较的,而不是按数值比较;代码实现错误,在编程中,可能存在比较逻辑或转换错误。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  文心一言给出的解答则是,训练数据偏差、输入处理与理解、模型幻觉、推理能力不足等原因。训练数据偏差层面,即大模型在训练过程中,可能接触到了大量包含数字的数据,但这些数据并不总是以比较大小为目的。例如,数字可能出现在版本号、股票代码、基金表现、汇率等上下文中,这些场景下的数字大小并不总是具有直接的比较意义。如果训练数据中存在关于数字比较的偏差或不足,模型可能无法学习到正确的比较规则。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  另一方面,可能由于大模型在处理输入文本时,将数字视为字符序列,而不是具有数值意义的实体。因此,在比较数字大小时,模型可能没有正确地将其转换为数值进行比较。另外,模型在处理小数时可能存在困难,特别是当小数位数不同时。模型可能没有正确地理解小数部分的比较规则。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  这个问题不难解决nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  7月17日,有大模型企业人士在接受记者电话采访时表示,对于大模型而言,这不是很难解决的技术问题,只要“喂”了这方面的数据,其实就能得到准确的答案,只不过大部分的大模型厂商没有把这方面的训练作为重心,所以可能会出现上述不准确的回答。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  这也并非大模型的数学能力首次受到关注。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  6月,上海人工智能实验室通过旗下司南评测体系OpenCompass对7个大模型进行高考“语数外”全卷能力测试。测试结果显示,三科总分420分,大模型最高分仅303分,其中语文、英语表现相对良好,数学全不及格。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  在此前《每日经济新闻》发布的《每日经济新闻大模型评测报告(第1期)》中,对主流大模型的财务数据计算和分析能力同样进行了测评。在财务数据计算中,当被要求计算营业收入复合增长率时,没有一家大模型计算出正确答案。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  综 合 来 看 ,Anthropic Claude 3 Opus表现最为出色,以总分136分高居榜首。该模型在计算题的任务一(同比增长率计算)和任务二(毛利率计算)中均获得了较高的分数,但在任务三(复合增长率计算)中未能给出正确答案。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  幻方求索DeepSeek-V2是“财务数据计算和分析”场景评测中的一匹“黑马”,以总分133.4分位列第二。该模型在计算题的任务一和任务二中同样表现良好,但在任务三中也未能给出正确答案。不过,在计算复合增长率的任务中,尽管其答案有误,但已掌握了正确的公式。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  零一万物Yi-Large的总分达到了126.4分,该模型尽管“分析写作题”得分略逊一筹,但在计算题的任务一和任务二中表现稳定。该模型在计算复合增长率时,同样给出了错误答案,但也给出了正确的公式。nZA速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:分不清9.9与9.11谁大? 大模型数学能力堪忧http://www.sushuapos.com/show-5-22261-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 光伏行业“组团”转战中东 多家公司拿下沙特大单

下一篇: 暑期档何以如此热力十足

热门资讯

推荐资讯

  • 文旅部发布五一安全出游提示

      4月26日,随着五一黄金周的临近,文旅部发布了一系列出游提示,以提醒广大游客注意假期旅行安全。  文化和旅游部提醒广大游客: 一、增强汛期防范意识。全国部分地区陆续进入

  • 北京五一假期将举办千余项促消费活动

      4月28日,北京市商务局宣布,“五一”假期为满足国内外游客和在京市民消费需求,将联合文旅、体育等相关部门和各区举办千余项促消费活动。活动旨在推出新供给,打造新消费场景,

  • 鄂尔多斯市首家智慧酒店开建,计划投资5亿

    据东胜商务微讯消息,近日,内蒙古自治区鄂尔多斯市首家智慧酒店——康泰智慧酒店在东胜区全面开工建设。该项目位于东胜区广场街南、科技街北、东环路东(汽车站南),占地面积17655.

  • 四川多个景区官宣免门票优惠政策

      “五一”假期即将到来。近期,四川多个景区官宣了“劳模”免票政策.    九寨沟景区  2024年5月1日至5月5日,对持有地市州及以上人民政府颁发的“劳动模范”证书、政

  • 小红书正进行新一轮估值200亿美元融资

      4月29日,据IPO早知道公众号消息,小红书正在进行新一轮估值200亿美元的融资。接近本轮融资的投资人透露,本轮融资实则就是小红书的Pre-IPO轮融资,将为小红书潜在的IPO作一定

  • 石基企业平台成功上线洲际酒店集团第300家酒店

    近日,石基集团完成新一代纯云架构的石基企业平台(Shiji Enterprise Platform)在商洛皇冠假日酒店的上线,这是自2021年洲际酒店集团选择石基企业平台作为集团标准以来,成功上线

  • 总投资2.08亿元,广东茂名电白福朋喜来登酒店签约

    为进一步深化茂名国禧酒店管理有限公司与电白区在“十四五”期间的投资合作,加快推进粤港澳大湾区建设,近日,区投资促进中心和茂名国禧酒店管理有限公司举行合作意向书签署仪式

  • 让内心生长出新鲜的情感和故事

    从《旗袍》《向延安》《麻雀》《捕风者》《惊蛰》《唐山海》,到《醒来》《苏州河》《大世界》,在岁月的流转中,海飞的笔下生长出一个由战火年代、系列

  • 洲际酒店集团公布2024年第一季度财报

    5月7日,洲际酒店集团公布2024年第一季度财报。第一季度全球每间可售房收入(RevPAR)同比增长2.6%,其中美洲市场下降0.3%,欧洲、中东、非洲及亚洲市场(EMEAA)增长8.9%,大中华区市场增

  • 中方决定将对法国等12国公民免签政策延长至2025年年底

      据央视新闻报道,当地时间5月6日晚,国家主席习近平在法国巴黎马里尼剧院同马克龙总统共同出席中法企业家委员会第六次会议闭幕式并致辞。  习近平强调,中方愿继续积极利用

  • 哈萨克斯坦本地电子钱包 Kaspi.kz 和蚂蚁集团达成合作

      近日,哈萨克斯坦本地电子钱包 Kaspi.kz 和蚂蚁集团达成合作,通过Alipay+ 跨境服务,Kaspi.kz用户在超过8000万支付宝商家均可扫码消费,实现“一部手机游中国”。至此,已有9个

  • “人在人里,水在水里” 男性女性都是人性

    主题:女性在当下时间:2024年4月20日地点:浙江文学馆嘉宾:易小荷 前媒体人、作家,《盐镇》作者乔叶 作家,茅盾文学奖获得者(长篇小说《宝水》)俞冰夏 译者

  • 日榜
  • 周榜
  • 月榜