6月17日记者获悉,由北京智源研究院(以下简称智源)打造的FlagEval天秤大模型评测平台实现了全面升级,并公布202406期FlagEval模型评测排行榜单。最新一期榜单显示,百度文心大模型、字节跳动“云雀”和“豆包”大模型的综合评分在闭源对话模型中位列前三,GPT-4o、百川、零一万物、kimi等紧随其后。
智源FlagEval榜单截图。 来源:智源
据了解,FlagEval天秤大模型评测平台是北京智源研究院推出的开放的大模型评测体系,自2023年发布以来,该评测平台已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,目前已评测国内外 300 余个开源和商业闭源的语言及多模态大模型。资料显示,FlagEval大语言模型评测体系当前包含6大评测任务,近30个评测数据集,超10万道评测题目。6月的评测结果显示,在中文语境下,文心大模型等国内头部语言模型的综合表现出色。
就在上周,国际数据公司(IDC)发布的《中国大模型市场主流产品评估,2024》中,百度文心一言、阿里通义千问和OpenAI GPT-4等也位于第一梯队,其中,百度是唯一一家在问答理解类、推理类、创作表达类、数学类、代码类的基础能力,toC通用场景类、toB特定行业类的应用能力等7个维度上均为“优势厂商”的企业。阿里获6项优势维度,OpenAI GPT-4和商汤分获5项。
截图自IDC《中国大模型市场主流产品评估,2024》。
1923年2月14日,学者张君劢应邀到清华学校演讲,演讲的主题是“人生观”,要点是说明科学与人生观的差异,张君劢的观点引起地质 69.3%的实验室获得性感染由程序性错误引起。大多数是操作失误或针头伤害。许多实验室失误归根到底是人为错误,这可能 碳中和目标倒逼产业结构与能源结构向绿色低碳方向转变。作为一种具备诸多优点的清洁能源,氢能迎来重要的发展机遇期, 12月16日,国家教育宏观政策论坛2023年会暨上海教育督导论坛在华东师范大学举行。华东师范大学党委书记、国家教育宏 12月16日,纪念姜维壮教授诞辰百年学术研讨会暨中国财税史研究院2023年年会在中央财经大学召开。在会上,与会者深切缅怀我 2023年12月中旬以来,受冷空气持续影响,我国天气形势复杂,集中出现寒潮、雨雪、低温、冰冻等灾害性天气。 近日,中国科学院 。本文链接:IDC、智源最新一期大模型评测结果出炉http://www.sushuapos.com/show-11-7354-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 中国科大人工智能与人形机器人前沿论坛举行