设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

2024-04-11 07:26:04 来源: 量子位

来自Transformer作者创业公司YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

能打得过GPT-4的开源模型出现了!YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型竞技场最新战报:YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

1040亿参数开源模型Command R+攀升至第6位,与GPT-4-0314打成平手,超过了GPT-4-0613。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

这也是第一个在大模型竞技场上击败GPT-4的开放权重模型。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大模型竞技场,可是大神Karpathy口中唯二信任的测试基准之一。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

Command R+来自AI独角兽Cohere。这家大模型创业公司的联合创始人兼CEO,正是Transformer最年轻作者Aidan Gomez(简称割麦子)。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

这份战报一出,又掀起了一波大模型社区的热烈讨论。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大家伙儿兴奋的理由很简单:基础大模型卷了一整年,没想到在2024年格局还在不断地发展变化。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

HuggingFace联合创始人Thomas Wolf就说:YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

另外,Cohere机器学习总监Nils Reimers还指出了值得关注的一点:YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Command R+最大的特色是对内置RAG(检索增强生成)进行了全面优化,而在大模型竞技场中,RAG这样的外挂能力并未纳入测试。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

RAG优化模型登上开源王座

在Cohere官方定位中,Command R+是一个“RAG优化模型”。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就是说,这个1040亿参数的大模型主要针对检索增强生成技术进行了深度优化,以减少幻觉的产生,更适配于企业级工作负载YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

和此前推出的Command R一样,Command R+的上下文窗口长度是128k。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

此外,Command R+还具备以下特点:YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 覆盖10+种语言,包括英语、中文、法语、德语等;
  • 能使用工具完成复杂业务流程的自动化

从测试结果来看,在多语种、RAG和工具使用这三个维度上,Command R+都达到了GPT-4 turbo的水平。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但在输入成本方面,Command R+的价格仅为GPT-4 turbo的1/3。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

输出成本方面,Command R+则是GPT-4 turbo的1/2。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

正是这点引发了不少网友的关注:YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

不过,尽管在大模型竞技场这种人类主观评测上表现抢眼,还是有网友甩出了一些不同观点。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在HumanEval上,Command R+的代码能力就连GPT-3.5都没打过,在两组测试中分别排在32位和33位。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新版GPT-4 turbo则没有悬念地拿下了第一。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

另外,我们也在最近刚登上正经论文的弱智吧benchmark上简单测试了一下Command R+的中文能力。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单

你给打个分?YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

需要说明的是,Command R+的开源只面向学术研究,并不能免费商用。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

One More Thing

最后的最后,还是多聊一嘴割麦子小哥。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Aidan Gomez,Transformer圆桌骑士中最年轻的一位,加入研究团队时只是个本科生——YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,是在多伦多大学读大三时就加入了Hinton实验室的那种。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

2018年,割麦子被牛津大学录取,开始像他的论文搭子们那样攻读CS博士学位。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但在2019年,随着Cohere的创立,他最终选择退学加入AI创业的浪潮。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Cohere主要是为企业提供大模型解决方案,目前估值达到了22亿美元。YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://twitter.com/lmsysorg/status/1777630133798772766YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://txt.cohere.com/command-r-plus-microsoft-azure/YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —YyD速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:开源模型首胜GPT-4!竞技场最新战报引热议,Karpathy:这是我唯二信任的榜单http://www.sushuapos.com/show-2-4735-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 2019年全球云计算企业排行榜TOP50(2019年全球云计算企业排行榜TOP50)

下一篇: AI算力提高,高能耗和难散热问题如何突破?

热门资讯

  • 打造平台级AI 引领行业创新

    3月18日,荣耀在国内市场发布全新AI使能的全场景战略,推出平台级AI赋能、以人为中心的跨操作系统体验,以及与全球产业链共振创新的一系列智能设备。荣

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • 借AI“慧眼”鉴别可疑论文图片

    今年1月,英国分子生物学家肖尔托·戴维发表文章,指控美国哈佛大学医学院附属丹娜-法伯癌症研究所科学家通过修改图片伪造数据。随后该研究所正

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 12项首创技术助力高速公路改扩建

    记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育

  • 锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • 企业联合遥感数据平台 加速遥感应用迈向普惠时代

    记者3月21日获悉,商汤科技与遥感数据平台吉林一号网、四维地球、星图地球等展开合作,此举标志着“SenseEarth智能遥感云”平台数据源全面升级,将为行

  • 科学家提出人类性别决定新理论

    3月18日,记者从中南大学生殖与干细胞研究所获悉,研究所林戈、卢光琇教授团队提出的一项新理论称,原始生殖细胞的性染色体组成在人类性别决定中起关键

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • 30台发动机助进阶版“鹊桥”升空

      30台发动机助进阶版“鹊桥”升空  中新社西安3月20日电 (记者 张一辰)3月20日8时31分,长征八号遥三运载火箭在中国文昌航天发射场顺利升空,成功将“鹊桥二号”卫星送入

  • 被美国诉讼垄断:iPhone回应想让苹果变成安卓!iOS开放还怎么玩

    3月22日消息,美国司法部对iPhone提起诉讼,声称其苹果生态系统构成垄断。司法部表示,iPhone将苹果生态系统视为一种垄断,以牺牲消费者、开发者和竞争对手的

  • 北京市青少年科学教育基地揭牌

    为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科

推荐资讯

  • 日榜
  • 周榜
  • 月榜