设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

发布时间: 来源: 量子位

消费级GPU即可微调iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“只需”10万美元,训练Llama-2级别的大模型。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尺寸更小但性能不减的MoE模型来了:iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它叫JetMoE,来自MIT、普林斯顿等研究机构。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

性能妥妥超过同等规模的Llama-2。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△贾扬清转发iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要知道,后者可是数十亿美元级别的投入成本。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不得说,大模型的打造成本,真的比人们想的要便宜更多了。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Ps. Stable Diffusion前老板Emad也点了赞:iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的注意力层中仍然使用了MoE:iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个MoA和MoE层又有8个专家,每次输入token激活2个。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更多技术细节将在不久后发布的技术报告上揭露。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,它还收获了不错的性能表现。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如下图所示:iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者,分别是:iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

传送门:
https://github.com/myshell-ai/JetMoEiQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://twitter.com/jiayq/status/1775935845205463292iQp速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

记者3月19日从天津大学获悉,该校环境学院刘庆岭教授团队与吉林大学于吉红院士团队以及天津工业大学梅东海教授团队合作,证明了无有机模板剂合成的具有OFF和ERI拓扑共生结构的Cu-T催化剂具有优 21世纪经济报道记者王峰北京报道 近日,全球教育集团培生(NYSE:PSO)公布2023财年财报。2023财年,培生的销售额为36.74亿英镑(下同),同比下降4%,但基础销售额同比增长1%;调整后营业利润5.73亿,同 3月22日消息,xiaomi集团的卢伟冰在微博上表示,xiaomiCivi 4 Pro有可能是2024年最轻薄的电话。这款电话的厚度仅为7.45mm,重量为179.3g。尽管拥有超轻薄的机身,但Civi 4 Pro仍搭载了一块容量为4700mAh 中国气象局下一代大气数值模式日前发布。该模式采用完全自主的动力框架算法——多矩约束有限体积方法为基础算法,进一步提升全球公里级和区域百米级尺度数值预报的精度,显著减小全球 3月22日记者获悉,中国移动北京公司(北京移动)已于近日在北京亦庄高级别自动驾驶示范区永昌路段完成5G-A网络精品覆盖。这也是北京首条同时部署了5G-A网络和车网算力协同技术的车联网试验道路,为 3月22日,中国互联网络信息中心(CNNIC)在京发布第53次《中国互联网络发展状况统计报告》。报告显示,截至2023年12月,我国网民规模达10.92亿人,互联网普及率达77.5%;网络基础设施建设持续加强,新型消费 。

本文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观http://www.sushuapos.com/show-2-4591-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 超巧 全智贤 宋慧乔在机场撞型,她眼睛都会笑(超巧全智贤宋慧乔在机场撞型)

下一篇: 最懂AI的诺奖经济学得主去世,大模型关键技术受他研究启发

热门资讯

推荐资讯

  • 1元一包的干脆面,一年卖了近5亿!

      中新经纬3月27日电 (闫淑鑫)近日,康师傅控股(下称康师傅)发布2025年年报,实现收入790.68亿元(人民币,下同),同比下滑2.0%;实现股东应占溢利45亿元,同比增长20.5%;毛利率同比增

  • 创业板指半日涨0.83% 创新药概念多股涨停

      中新经纬3月27日电 周五早盘,A股三大指数低开高走。截至午间收盘,上证指数涨0.26%,报3899.12点;深证成指涨0.93%,报13732.34点;创业板指涨0.83%,报3299.57点。  沪深两市半日

  • A股三大指数跌超1%,化工板块逆市走强

      中新经纬3月26日电 26日,A股低开低走,三大指数跌超1%。上证指数跌1.09%,报3889.08点;深证成指跌1.41%,报13606.44点;创业板指跌1.34%,报3272.49点。  Wind截图  盘面上看,油

  • 刘强东大手笔造游艇,计划投150亿元

      中新经纬3月26日电 据辽宁日报消息,3月25日,大连市政府与深圳市探海游艇产业发展有限公司签署战略合作协议,总投资150亿元的探海游艇制造基地与游艇运营项目正式落户大连。

  • 外媒:索尼与本田放弃联合开发纯电动汽车

      中新经纬3月26日电 据日本共同社报道,索尼与本田放弃EV联合开发,跨界合作遇挫。  报道称,索尼集团与本田共同出资的索尼・Honda移动出行公司25日宣布,已放弃开发和

  • 美股三大指数收涨!ARM涨超16%,国际油价跌超2%

      中新经纬3月26日电 国际油价回落,美国股市出现回暖。当地时间25日,美股三大指数集体收涨,道指涨0.66%,纳指涨0.77%,标普500指数涨0.54%。  美国大型科技股多数上涨,亚马逊涨

  • 德邦股份3月31日终止上市

      中新经纬3月25日电 德邦股份25日晚间公告,上海证券交易所于2026年3月24日作出公司股票终止上市的决定,公司股票将于2026年3月31日终止上市暨摘牌。  德邦股份称,根据《上

  • 中国中车等5户央企人事变动

      中新经纬3月24日电 “国资小新”微信号24日发布5户中央企业5名领导人员职务任免消息。  中国中车集团有限公司  王锋任中国中车集团有限公司党委副书记、董事,提名为

  • 石油紧缩,已经影响到韩国泡面了

      中新经纬3月24日电 据彭博社报道,中东原油短缺日益严重,影响已经传递到了韩国的食品行业。  日前,由于中东局势紧张导致石脑油供应不稳,韩国将于下月起对石脑油出口实施管

  • 纳睿雷达终止收购,股价高开低走

      中新经纬3月24日电 24日,纳睿雷达股价高开超4%,此后迅速翻绿,截至发稿跌超2%。  3月23日,纳睿雷达发布公告称,鉴于市场环境变化等因素,董事会审议通过了终止发行股份及支付

  • 券商首席谈A股本轮调整:压力释放而非趋势逆转

      中新经纬3月24日电 针对A股近期调整,粤开证券首席经济学家罗志恒、粤开证券首席金融分析师原野发布研报称,实为压力释放而非趋势逆转。  研报提到,2026年3月23日亚太交易

  • 美联储维持利率不变!分析:美国经济“滞胀”加大决策难度|宅男财经

      【宅男财经|专家面对面】北京时间19日凌晨,美联储宣布将联邦基金利率维持在3.50%-3.75%区间不变。  东方金诚研究发展部高级副总监白雪对宅男财经表示,这一预期之所

  • 日榜
  • 周榜
  • 月榜