设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五

发布时间: 来源: 量子位

Llama 3英文能力与GPT-4并列第一IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

克雷西 发自 凹非寺IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
量子位 | 公众号 QbitAI

关于Llama 3,又有测试结果新鲜出炉——IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型评测社区LMSYS发布了一份大模型排行榜单,Llama 3位列第五,英文单项与GPT-4并列第一。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不同于其他Benchmark,这份榜单的依据是模型一对一battle,由全网测评者自行命题并打分。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终,Llama 3取得了榜单中的第五名,排在前面的是GPT-4的三个不同版本,以及Claude 3超大杯Opus。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在英文单项榜单中,Llama 3反超了Claude,与GPT-4打成了平手。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

对于这一结果,Meta的首席科学家LeCun十分高兴,转发了推文并留下了一个“Nice”。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

PyTorch之父Soumith Chintala也激动地表示,这样的成果令人难以置信,对Meta感到骄傲。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Llama 3的400B版本还没出来,单靠70B参数就获得了第五名……IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
我还记得去年三月GPT-4发布的时候,达到与之相同的表现几乎是一件不可能的事。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
……IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
现在AI的普及化实在是令人难以置信,我对Meta AI的同仁们做出这样的成功感到非常骄傲。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么,这份榜单具体展示了什么样的结果呢?IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

近90个模型对战75万轮

截至最新榜单发布,LMSYS共收集了近75万次大模型solo对战结果,涉及的模型达到了89款。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其中,Llama 3参与过的有1.27万次,GPT-4则有多个不同版本,最多的参与了6.8万次。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

下面这张图展示了部分热门模型的比拼次数和胜率,图中的两项指标都没有统计平局的次数。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

榜单方面,LMSYS分成了总榜和多个子榜单,GPT-4-Turbo位列第一,与之并列的是早一些的1106版本,以及Claude 3超大杯Opus。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一个版本(0125)的GPT-4则位列其后,紧接着就是Llama 3了。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过比较有意思的是,较新一些的0125,表现还不如老版本1106。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在英文单项榜单中,Llama 3的成绩直接和两款GPT-4打成了平手,还反超了0125版本。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

中文能力排行榜的第一名则由Claude 3 Opus和GPT-4-1106共享,Llama 3则已经排到了20名开外。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除了语言能力之外,榜单中还设置了长文本和代码能力排名,Llama 3也都名列前茅。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,LMSYS的“游戏规则”又具体是什么样的呢?IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

人人都可参与的大模型评测

这是一个人人都可以参与的大模型测试,题目和评价标准,都由参与者自行决定。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而具体的“竞技”过程,又分成了battle和side-by-side两种模式。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

battle模式下,在测试界面输入好问题之后,系统会随机调用库中的两个模型,而测试者并不知道系统到底抽中了谁,界面中只显示“模型A”和“模型B”。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在模型输出答案后,测评人需要选择哪个更好,或者是平手,当然如果模型的表现都不符合预期,也有相应的选项。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

只有在做出选择之后,模型的身份才会被揭开。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

side-by-side则是由用户选择指定的模型来PK,其余测试流程与battle模式相同IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,只有battle的匿名模式下的投票结果才会被统计,且在对话过程中模型不小心暴露身份就会导致结果失效。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

按照各个模型对其他模型的Win Rate,可以绘制出这样的图像:IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

示意图,较早版本

而最终的排行榜,是利用Win Rate数据,通过Elo评价系统换算成分数得到的。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Elo评价系统是一种计算玩家相对技能水平的方法,由美国物理学教授Arpad Elo设计。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体到LMSYS,在初始条件下,所有模型的评分(R)都被设定为1000,然后根据这样的公式计算出期待胜率(E)。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着测试的不断进行,会根据实际得分(S)对评分进行修正,S有1、0和0.5三种取值,分别对应获胜、失败和平手三种情况。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

修正算法如下式所示,其中K为系数,需要测试者根据实际情况调整。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终将所有有效数据纳入计算后,就得到了模型的Elo评分。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过实际操作过程中,LMSYS团队发现这种算法的稳定性存在不足,于是又采用了统计学方法进行了修正。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

他们利用Bootstrap方法进行重复采样,得到了更稳定的结果,并估计了置信度区间。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终修正后的Elo评分,就成了榜单中的排列依据。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

One More Thing

Llama 3已经可以在大模型推理平台Groq(不是马斯克的Grok)上跑了。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这个平台的最大亮点就是“快”,之前用Mixtral模型跑出过每秒近500 token的速度。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

跑起Llama 3,也是相当迅速,实测70B可以跑到每秒约300 Token,8B版本更是接近了800。IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

图片IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[1]https://lmsys.org/blog/2023-05-03-arena/IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://chat.lmsys.org/?leaderboardIHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://twitter.com/lmsysorg/status/1782483699449332144IHO速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

南方财经全媒体记者 吴立洋 上海报道日前,2024中国家电及消费电子博览会(AWE)在上海新国际博览中心闭幕。作为一年一度的家电产业盛会,AWE既是各大厂商展示新技术与新产品的重要节点,也是 美国《发现》杂志网站2月7日刊登题为《200万年前,我们的人类祖先开始从水里捞鱼》的文章,作者是科迪·科蒂尔,内容编译如下:捕鱼可能是一种占许多国家蛋白质消费极大比例的全球性行为,但捕 南方财经全媒体记者马嘉璐 广州报道如何划分一般数据、重要数据、核心数据终于有了国标版“参考答案”。3月21日,国家标准GB/T 43697-2024《数据安全技术 数据分类分级规则》(以下简 3月20日,在2024全球游戏开发者大会(GDC)上,腾讯发布了自研游戏AI引擎——GiiNEX。基于生成式AI和决策AI技术,GiiNEX将为游戏全生命周期提供丰富的AI解决方案。据悉,借助大模型等生成式AI 人类的语言自产生以来,就不断演化发展。发音、词汇、语法的演变过程,是语言学家较为关注的领域。语言演化的根本动力是什么,演化又呈现出怎样的规律?我国科学家主导的一项心理学研究显示,人类的某   30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入预定轨道。作为公共中继星平台,“鹊桥二号” 。

本文链接:大模型一对一战斗75万轮,GPT-4夺冠,Llama 3位列第五http://www.sushuapos.com/show-2-5308-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 1966年杨成武汇报部队建设,毛主席突然插话说 曾国藩杀人很厉害(1966年杨成武汇报部队建设)

下一篇: 黑照变废为宝!超能AI一句话修出创意大片,亲妈看了都说真

热门资讯

  • 全国爱肝日丨专家提醒注意“小心肝”

    3月18日是第24个“全国爱肝日”。今年活动的主题是,“早防早筛,远离肝硬化”。重庆多所医院开展义诊咨询活动,通过普及肝病的防治知识,让民众主动筛查

  • 我国首个适应高寒气候肉羊品种通过鉴定

    记者19日从兰州大学获悉,天华肉羊通过国家畜禽遗传资源委员会审定鉴定,成为我国首个适应高寒气候的肉羊品种。该品种由兰州大学草地农业科技学院李发

  • 239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远

      239万的无人驾驶航空器淘宝上架,人人可以“打飞的”还有多远  239万元/架的无人驾驶载人航空器也看上了电商渠道。  3月18日,亿航智能设备(广州)有限公司(下称“亿航

  • 什么是“时空连续体”?

    英国“我超爱科学”网站1月1日刊登题为《什么是“时空连续体”?》的文章,作者是斯蒂芬·伦茨,内容编译如下:“时空连续体”(space-time continuu

  • 阿尔茨海默病早期症状可能表现在视力上

    据阿根廷布宜诺斯艾利斯经济新闻网报道,一项国际研究发现,阿尔茨海默病的早期症状可能表现在视力上。研究显示,即便眼科检查结果正常,但阅读、估计距离

  • 科学新发现丨有史以来最大的三维宇宙地图发布

    根据《天体物理学杂志》的最新报道,一个国际天文学家团队利用欧洲空间局的盖亚(Gaia)太空望远镜收集的数据,创建了迄今为止最庞大的三维宇宙地图。该地

  • 突发!Kimi,崩了!

    因流量突然剧增,3月21日,陆续有用户在社交平台上表示,月之暗面旗下大模型应用Kimi智能助手的APP和小程序均无法正常使用。截至记者发稿时,相关

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • 新研究揭示 光合作用进化“缺失的一环”

    一个国际团队近日在英国《自然》杂志上发表论文说,他们利用湖水样本培养出一种奇特的光合细菌,它属于绿弯菌门一种此前未知的目,代表了光合作用生物进

  • 全球首列氢能源市域列车完成满载运行试验

    3月21日上午,全球首列氢能源市域列车在中车长客股份公司(以下简称“中车长客”)试验线上进行了时速160公里满载运行试验。当日试验过程中,车以160公里/

  • 30台发动机助进阶版“鹊桥”升空

      30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入

  • 首款骁龙8 Gen3折叠屏!vivo X Fold3图赏

    3月23日消息,vivo X Fold3系列将于3月26日正式发布,成为全球首款骁龙8 Gen3折叠屏电话。现在这款新机外观已经解禁,下面为大家带来图赏。vivo X Fold3提供

推荐资讯

  • 国家外汇局:2月国际收支货物和服务贸易进出口规模39349亿元

      中新经纬3月27日电 27日,国家外汇管理局网站公布2026年2月我国国际收支货物和服务贸易数据。  2026年2月,我国国际收支货物和服务贸易进出口规模39349亿元。其中,货物和

  • 能源安全,中国悄悄上了分

      中新经纬3月26日电 (薛宇飞)“不稳定,对于稳健的经济而言是最糟糕的情况,能源供应该怎么办?我认为我们刚刚意识到,我们不能依赖石油,不能依赖特定地区的石油,对此必须格外谨慎

  • 外媒:索尼与本田放弃联合开发纯电动汽车

      中新经纬3月26日电 据日本共同社报道,索尼与本田放弃EV联合开发,跨界合作遇挫。  报道称,索尼集团与本田共同出资的索尼・Honda移动出行公司25日宣布,已放弃开发和

  • 英唐智控澄清:正推进收购光隆集成、奥简微电子股权

      中新经纬3月26日电 25日晚,深圳市英唐智能控制股份有限公司(简称“英唐智控”)发布《关于市场不实传闻的澄清公告》。  公告显示,2026年3月25日,公司关注到东方财富网股

  • 德邦股份3月31日终止上市

      中新经纬3月25日电 德邦股份25日晚间公告,上海证券交易所于2026年3月24日作出公司股票终止上市的决定,公司股票将于2026年3月31日终止上市暨摘牌。  德邦股份称,根据《上

  • 张雪峰因心源性猝死抢救无效去世

      中新经纬3月24日电 24日晚间,峰学蔚来创始人、教育博主张雪峰微博发布讣告称,张雪峰因心源性猝死全力抢救无效,于2026年3月24日15时50分在苏州逝世。  图源:张雪峰微博 

  • 国务院国资委:鼓励中央企业推动相关成果在雄安新区转化应用

      中新经纬3月24日电 据国务院国资委网站,3月24日,国务院国资委党委召开扩大会议,坚持以改革创新增动能添活力,为深入推进雄安新区高质量建设和发展贡献更大力量。  会议认

  • 泸州银行管理团队变阵,行长、副行长同日辞任

      中新经纬3月24日电 (魏薇)泸州银行23日公告称,董事会接到行长刘仕荣的书面辞呈。刘仕荣因临近退休年龄,辞去行长之职务,自书面辞呈送达董事会时生效。同日,泸州银行副行长薛

  • “5000元过春天”,三名90后的过敏账单

      中新经纬3月24日电 (王玉玲)许多人正走出家门享受春光,但对过敏患者来说,春天意味着无处不在的风险。  一年花超5000元  95后白领阿梨(化名)是四川成都人,在北京上学工

  • 农业农村部:持续整治制假黑窝点、农资“忽悠团”走村窜户等

      中新经纬3月24日电 据农业农村部网站24日消息,为充分发挥农业执法护航“三农”发展作用,农业农村部近日印发《关于开展2026年“绿剑护粮安”执法行动的通知》(以下简称《

  • A股早盘超4500股飘红 电力板块掀涨停潮

      中新经纬3月24日电 周二早盘,A股三大指数集体高开,此后探底回升。截至午间收盘,上证指数涨0.95%,报3849.34点;深证成指涨0.26%,报13380.05点;创业板指跌0.79%,报3209.76点。  

  • 英轮凯旋召回2157辆摩托车

      中新经纬3月24日电 据国家市场监督管理总局网站24日消息,日前,英轮凯旋(上海)商贸有限公司根据《缺陷汽车产品召回管理条例》和《缺陷汽车产品召回管理条例实施办法》的要

  • 日榜
  • 周榜
  • 月榜