IDC、智源最新一期大模型评测结果出炉

发布时间: 2024-06-19 15:38:31 来源：中国科学报

观看：300

6月17日记者获悉，由北京智源研究院（以下简称智源）打造的FlagEval天秤大模型评测平台实现了全面升级，并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示，百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三，GPT-4o、百川、零一万物、kimi等紧随其后。

智源FlagEval榜单截图。来源：智源

据了解，FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系，自2023年发布以来，该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型，实现多领域全覆盖，目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示，FlagEval大语言模型评测体系当前包含6大评测任务，近30个评测数据集，超10万道评测题目。6月的评测结果显示，在中文语境下，文心大模型等国内头部语言模型的综合表现出色。

就在上周，国际数据公司（IDC）发布的《中国大模型市场主流产品评估，2024》中，百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队，其中，百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力，toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度，OpenAI GPT-4和商汤分获5项。

?

截图自IDC《中国大模型市场主流产品评估，2024》。

12月16~17日，“第一届集成芯片和芯粒大会”在上海举行。在会上，国家自然科学基金委领导介绍了“集成芯片前沿技术据《自然》消息，与不到10年前相比，每年发表60篇以上论文的研究人员数量增加了四倍。11月24日发表在bioRxiv上的一篇预印本未来航天会是什么样？它会是在现有技术的基础上缓慢地进步吗？还是会以一种更激进、更意想不到的方式向前？人们能否实现类似 12月17日，由中国科学院大学马克思主义学院、中国科学院大学党史党建研究中心主办的“纪念毛泽东同志诞辰130周年学术研讨近日，日本政府批准了一项立法，要求6所顶尖大学成立新的管理政策委员会，使外部专家在决策中有更大的发言权。据《科 ? ? 。

本文链接：IDC、智源最新一期大模型评测结果出炉http://www.sushuapos.com/show-11-7354-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：中国科大人工智能与人形机器人前沿论坛举行

下一篇：灵长类动物研究显示：Y染色体进化速度快于X染色体

IDC、智源最新一期大模型评测结果出炉

热门资讯

推荐资讯

科学最热文章