设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

发布时间: 来源: 量子位

双雄格局呼之欲出OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型,已经开启大卷特卷模式。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

全球范围,太平洋两岸,双雄格局正在呼之欲出。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Llama 3中杯大杯刚惊艳亮相,国内通义千问就直接开源千亿级参数模型Qwen1.5-110B,一把火上Hacker News榜首。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

不仅相较于自家720亿参数模型性能明显提升,在MMLU、C-Eval、HumanEval等多个基准测试中,Qwen1.5-110B都重返SOTA开源模型宝座,超越Llama 3 70B,成最强开源大模型OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

中文能力方面,对比仅喂了5%非英文数据的Llama 3 70B,Qwen1.5-110B更是优势明显。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

于是乎,模型一上线,开源社区已经热烈响应起来。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这不,Qwen1.5-110B推出不到一天,帮助用户在本地环境运行创建大语言模型的Ollama平台,就已火速上线链接。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

值得关注的是,这已经是3个月内通义千问开源的第8款大模型OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型都在卷些什么?

那么,问题来了,因Llama 3和Qwen1.5接连开源而持续的这波开源大模型小热潮中,开源模型又在卷些什么?OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如果说上一阶段由马斯克Grok和Mixtral所引领的话题热点是MoE,那网友们这一两周内聚焦的第一关键词,当属Scaling Laws——OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尺度定律

OpenAI创始成员、前特斯拉AI总监Andrej Karpathy在总结Llama 3时,就着重提到过其中尺度定律的体现:OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Llama 2在2T token数据上训练,而Llama 3直接加码到了15T,远超Chinchilla推荐量。并且Meta提到,即便如此,模型似乎依然没有以标准方式“收敛”。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

也就是说,“力大砖飞”这事儿还远没有达到上限。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

无独有偶,Qwen1.5-110B延续了这个话题的讨论。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

官方博客提到,相比于Qwen1.5-72B,此次开源的千亿参数模型在预训练方法上并没有太大的改变,但包括编程、数学、语言理解、推理在内的各项能力提升明显。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

更强大、更大规模的基础语言模型,也带来了更好的Chat模型。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

阿里的研究人员们指出,Qwen1.5-110B的评测成绩意味着,在模型大小扩展方面仍有很大的提升空间。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

官方还浅浅剧透了Qwen 2的研究方向:同时扩展训练数据和模型大小,双管齐下。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

多语言和长文本能力OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尺度定律之外,由闭源模型掀起的长文本风潮,同样在开源模型身上被重点关注。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Llama 3的8K上下文窗口,就遭到了不少吐槽:实在有点“古典”。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Qwen1.5-110B在这方面延续了同系列模型的32K上下文。在此前的测试中,长文本能力测试结果显示,即使是Qwen1.5-7B这样的“小模型”,也能表现出与GPT3.5-turbo-16k类似的性能。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

并且,开源的优势就是敢想你就来。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

Qwen1.5官方博客中提到,虽然纸面给的是32K吧,但并不代表模型的上限就到这儿了:OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另一个由通义千问而被cue到的大模型能力评判指标,就是多语言能力。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以Qwen1.5-110B为例,该模型支持中文、英文、法语、西班牙语、德语、俄语、韩语、日语、越南语、阿拉伯语等多种语言。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

阿里高级算法专家林俊旸分享过通义千问团队内部收到的反馈:实际上,多语言能力在全球开源社区中广受欢迎,正在推动大模型在全球各地的落地应用。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而Qwen1.5在12个比较大的语言中,表现都不逊于GPT-3.5。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

对于中文世界而言,这也是国产开源大模型的优势所在。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

毕竟Llama 3强则强矣,训练数据方面中文语料占比实在太少(95%都是英文数据),单就中文能力而言,确实没法儿拿来即用。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

相比之下,Qwen1.5 110B的中文实力就靠谱多了。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

能让歪果仁瞬间抓狂的中文水平测试,轻松拿捏:OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

弱智吧Benchmark,也能应对自如:OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

此外,还有不少网友提到了开源模型型号丰富度的问题。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

以Qwen1.5为例,推出不到3个月,已经连续开源8款大语言模型,参数规模涵盖5亿、18亿、40亿、70亿、140亿、320亿、720亿和1100亿,还推出了代码模型CodeQwen1.5-7B,和混合专家模型Qwen1.5-MoE-A2.7B。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

随着大模型应用探索的不断深入,业界已经逐渐达成新的共识:在许多具体的任务场景中,“小”模型比“大”模型更实用。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而随着大模型应用向端侧的转移,丰富、全面的不同型号开源模型,无疑给开发者们带来了更多的选择。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“把开源进行到底”OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如同大洋彼岸OpenAI引领闭源模型发展,而Meta靠开放权重的Llama系列另辟蹊径,在国内,阿里正是大厂中对开源大模型态度最积极的一家。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从Qwen到Qwen1.5,再到多模态的Qwen-VL和Qwen-Audio,通义千问自去年以来可谓开源消息不断。仅Qwen1.5系列,目前累计已开源10款大模型。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

阿里官方,也已直接亮明“把开源进行到底”的态度。这在卷大模型的互联网大厂中,确实是独一份。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

所以,阿里坚持走开源路线,背后的底层逻辑是什么?OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

或许可以拆解为以下几个层面来分析。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,在技术层面,尽管以GPT系列、Claude系列为代表的闭源模型们目前占据着领先地位,但开源模型也“步步紧逼”,不断有新进展惊艳科技圈。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

图灵奖得主Yann LeCun就曾援引ARK Invest的数据认为“开源模型正走在超越闭源模型的道路上”。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

ARK Invest当时预测,在2024年,开源模型会对闭源模型的商业模式构成挑战。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而随着Llama 3为标杆的新一波开源大模型的爆发,越来越多的业内专家也开始期待,强大的开源模型“会改变很多学界研究和初创公司的发展方式”。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

值得一提的是,开源模型独特的一重优势在于,来自开源社区的技术力量,同时也反哺了开源大模型的发展。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

林俊旸就在量子位AIGC产业峰会上分享过,通义千问32B的开源,就是在因开发者们的反馈而推动的。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次,在应用落地层面,开源大模型无疑起到了加速器的作用。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源社区的热情就侧面佐证了开发者们把基础模型的控制权把握在自己手中的倾向性。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以通义千问为例,在HuggingFace、魔搭社区的下载量已经超过700万。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更实际的落地案例,也正在各行各业中持续实现。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如,中国科学院国家天文台人工智能组,就基于通义千问开源模型,开发了新一代天文大模型“星语3.0”,将大模型首次应用于天文观测领域。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

而对于推动开源的企业而言,打响的也不仅仅是名气和在开发者社区中的影响力。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通义千问的B端业务,也正因开源而加速。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最新消息是,通义大模型不仅“上天”,现在还“下矿”了。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

继西部机场集团推出基于阿里云通义大模型打造的首个航空大模型后,西安塔力科技通过接入阿里云通义大模型,打造了新型矿山重大风险识别处置系统,并已在陕煤建新煤矿等十余座矿山上线,这是大模型在矿山场景的首次规模化落地。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

目前,新东方、同程旅行、长安汽车、亲宝宝等多家企业均已宣布介入通义大模型。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型

轰轰烈烈的百模大战硝烟渐散,当人们开始讨论闭源模型格局初定时,2024年,不得不说开源大模型给整个技术圈带来了不少新的惊喜。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而随着大模型应用开始成为新阶段探索的主旋律,站在开发者、初创企业、更多非互联网企业的角度而言,以Llama、通义千问等为代表的开源大模型越强,垂直行业结合做行业大模型的自由度就会越高,落地速度也会越快。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

过去互联网的繁荣建立在开源的基础之上,而现在,在大模型风暴中,开源大模型再次显现出鲶鱼效应。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

自研大模型的必要性和竞争力,正在不断被开源卷王们卷没了。OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

— 完 —OSP速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

记者3月19日从天津大学获悉,该校环境学院刘庆岭教授团队与吉林大学于吉红院士团队以及天津工业大学梅东海教授团队合作,证明了无有机模板剂合成的具有OFF和ERI拓扑共生结构的Cu-T催化剂具有优 记者从国家航天局获悉,3月20日8时31分,探月工程四期鹊桥二号中继星由长征八号遥三运载火箭在中国文昌航天发射场成功发射升空。科技日报记者 付毅飞 摄火箭飞行24分钟后,星箭分离,将鹊 玻璃,是我们日常生活中常见且应用非常广泛的一种材料,如外墙、窗户、杯子、灯饰……但玻璃的应用远不止于此。2024年3月22日14时,由中国下一代教育基金会与中国平安共同主办、科技 记者3月21日获悉,由中国科学院自动化研究所和中国科学院香港创新研究院联合研发的医疗领域AI多模态大模型——CARES Copilot 1.0日前在香港正式发布,现已面向香港神经外科医生开放使 3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的机身,但Civi 4 Pro仍搭载了一块容量为4700mAh 科学杂志《成瘾》3月21日发表的一项新研究显示,刚开始吸烟和终生吸烟都可能增加腹部脂肪,特别是内脏脂肪。内脏脂肪与心脏病、糖尿病、中风和痴呆症的高风险有关。吸烟者相较于不吸烟者,通常体 。

本文链接:开源大模型王座再易主,通义千问1100亿参数拿下SOTA,3个月已推出8款模型http://www.sushuapos.com/show-2-5573-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 小红书让智能体们吵起来了!联合复旦推出大模型专属群聊工具

下一篇: 2024全球机器学习技术大会上海站圆满闭幕,共奏AGI变革新时代

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 监管AI,欧盟出手,美国掉队?

      监管AI,欧盟出手,美国掉队?  上个世纪,科幻小说家艾萨克・阿西莫夫提出了“机器人三定律”,带来了对“机器人”与“规则”的美好幻想。  如今,伴随着ChatGPT、Sora的爆火,

  • 全国首个模拟验证机场开工

    记者日前获悉,位于四川成都未来科技城应用性科创区的民航科技创新示范区(B区)航站楼项目,近日取得施工许可证。这也意味着全国首个模拟验证机场开工。

  • 海龟深潜时一分钟心跳只有两次

    据《日本经济新闻》3月19日报道,东京大学副教授坂本健太郎等人研究发现,海龟下潜时心率将急剧下降。海龟与鲸等哺乳类动物同样,心率随下潜深度加深而

  • “95后”的无人机“造像师”

    “当时是怎样选中低空经济这个领域,并且来深圳发展的?”面对这个关乎事业发展的问题,“95后”台青张晏纶坦言,“这是一场面试带来的惊喜。”张晏纶来自

  • 科学家用人工智能设计全新抗体

    据英国《自然》杂志网站19日报道,美国华盛顿大学科学家首次使用生成式人工智能(AI)工具,帮助他们制造全新抗体。研究团队表示,AI设计抗体或能更好靶向一

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 南财观察丨操作系统与一座城:全球“鸿蒙之城”深圳造

    21世纪经济报道记者 石恩泽 深圳报道操作系统似乎对地理入迷。鸿蒙和深圳,就像Windows和西雅图,也似Linux和赫尔辛基。这是地理与技术的紧密

  • iPhone可能在国内设备使用百度AI技术:集成于iOS 18

    有消息称,iPhone在中国寻找本土生成式AI提供方,iPhone讨论了在中国的设备中使用百度的人工智能技术。据《华尔街日报》报道,iPhone与百度进行了谈判,以授权

  • 为什么有人以为安卓拍照可以打iPhone 答案就这么直接

    聊到安卓电话的拍照,大部分用户还是比较认可的,而在与iPhone电话的对比中,用户也普遍以为安卓电话的拍照水平要比iPhone更好,当然这一说法也并非空穴来风,其

  • 首批未来产业创新成果惊艳亮相

    全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机

  • 科技助力市场驱动 无人车产品赋能环卫物流等行业

    随着无人驾驶技术的快速发展,无人车在城市配送、环卫清扫、安防巡逻等应用场景中已得到较好示范应用。3月22日,南京溧水经济开发区管委会与南京易咖

推荐资讯

  • 日榜
  • 周榜
  • 月榜