设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

2024-04-06 07:13:53 来源: 量子位

消费级GPU即可微调lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

“只需”10万美元,训练Llama-2级别的大模型。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

尺寸更小但性能不减的MoE模型来了:lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它叫JetMoE,来自MIT、普林斯顿等研究机构。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

性能妥妥超过同等规模的Llama-2。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

△贾扬清转发lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要知道,后者可是数十亿美元级别的投入成本。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE发布即完全开源,且学术界友好:仅使用公开数据集和开源代码,用消费级GPU就能进行微调。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不得说,大模型的打造成本,真的比人们想的要便宜更多了。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Ps. Stable Diffusion前老板Emad也点了赞:lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

10万美刀实现Llama-2性能

JetMoE启发于ModuleFormer的稀疏激活架构。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(ModuleFormer,一种基于稀疏专家混合(SMoE)的模块化架构,可提高大模型效率和灵活性,去年6月提出)lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的注意力层中仍然使用了MoE:lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

80亿参数的JetMoE一共有24个区块,每块包含2个MoE层,分别是注意力头混合 (MoA) 和MLP专家混合 (MoE)。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

每个MoA和MoE层又有8个专家,每次输入token激活2个。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

JetMoE-8B使用公开数据集中的1.25T token进行训练,学习率5.0 x 10-4,全局batch size为4M token。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体训练方案遵循MiniCPM(来自面壁智能,2B模型就能赶超Mistral-7B)的思路,共包含两阶段lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第一阶段使用线性预热的恒定学习率,用来自大规模开源预训练数据集的1万亿个token进行训练,这些数据集包括RefinedWeb、Pile、Github data等等。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

第二阶段则使用指数学习率衰减,用2500亿个token训练来自第一阶段数据集和超高质量开源数据集的token。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

最终,团队使用96×H100的GPU集群,花费2周时间、约8万美元搞定JetMoE-8B。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

更多技术细节将在不久后发布的技术报告上揭露。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在推理过程中,由于JetMoE-8B仅具有22亿个激活参数,因此计算成本大大降低——lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同时,它还收获了不错的性能表现。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如下图所示:lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

JetMoE-8B在8个评测基准上获得了5个sota(包括大模型竞技场Open LLM Leaderboard),超过LLaMA-13B、LLaMA2-7B和DeepseekMoE-16B。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

在MT-Bench基准上得分6.681,也超过了130亿参数的LLaMA2、Vicuna等模型。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

作者介绍

JetMoE一共4位作者,分别是:lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Yikang Shen

MIT-IBM Watson Lab研究员,研究方向NLP。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本硕毕业于北航,博士经历于Yoshua Bengio创办的Mila研究机构。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 国振 (Gavin Guo)

MIT博士在读, 研究方向为3D成像的数据高效机器学习。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

UC伯克利本科毕业,去年夏天作为学生研究员加入MIT-IBM Watson Lab,导师为Yikang Shen等人。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 蔡天乐

普林斯顿博士在读生,本科毕业于北大应用数学和计算机科学,目前也是Together.ai 的兼职研究员,与Tri Dao合作。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Zengyi Qin

MIT博士在读,同时在创业,MyShell的AI研发主管。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这家公司刚刚融资了1100万美元,投资者包括Transformer的作者。lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观

传送门:
https://github.com/myshell-ai/JetMoElt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
https://twitter.com/jiayq/status/1775935845205463292lt0速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:10万美元训出Llama-2级大模型!全华人打造新型MoE,贾扬清SD前CEO围观http://www.sushuapos.com/show-2-4591-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 超巧 全智贤 宋慧乔在机场撞型,她眼睛都会笑(超巧全智贤宋慧乔在机场撞型)

下一篇: 最懂AI的诺奖经济学得主去世,大模型关键技术受他研究启发

热门资讯

  • AI领域,重磅消息传来!

    AI领域,一则重磅消息传来!最新消息,全球最知名的AI公司——OpenAI将在几个月内发布新版大型语言模型GPT-5,性能将有大幅跃升。目前,ChatGPT使用

  • 每12个恒星或有一个吞过行星

    据《自然》20日消息称,天文学家对91对恒星所作的光谱分析显示,大约每12个恒星中就有一个可能吞噬了一个行星。在吞噬一个行星后,恒星的化学构成可能发

  • Kimi概念股风起:月之暗面的资本征途与技术突破

    21世纪经济报道记者雷晨 北京报道随着人工智能技术的飞速发展,Kimi概念股成为资本市场的新宠。3月21日,受Kimi智能助手技术突破的催化,相关概

  • 国家工程师丨锻造能“听”清眼疾的高精设备

    眼眸深邃似海、璨如星河,中国医学科学院生物医学工程研究所眼科诊疗技术研发团队(以下简称“团队”)正是眼眸“侦探”。该团队不久前被授予“国家卓越

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • 小龙虾能将锂离子转入食物链

    从手机到手表再到电动汽车,锂离子充电电池为众多设备提供动力。但随着消费者丢弃电子产品的增加,越来越多的锂可能会进入环境。研究人员在美国化学会

  • 我国成功发射云海二号02组卫星

      我国成功发射云海二号02组卫星  中新网北京3月21日电(马帅莎 曹译 张艳)北京时间2024年3月21日13时27分,我国在酒泉卫星发射中心使用长征二号丁运载火箭/远征三号上面

  • huaweiMate 70细节曝光!芯片性能比肩5.5nm、新鸿蒙5.0系统

    3月24日消息,今天数码博主“厂长是关同学”曝光了huaweiMate 70系列电话的部分配置信息。该博主表示,huawei全新的Mate 70系列首发会搭载新的芯片,芯片的

  • 英媒:人工智能助力抗体设计

    据英国《自然》周刊网站3月19日报道,研究人员首次利用生成式人工智能(AI)制造出全新抗体。报道称,本周生物学预印本资料库中的一份预印本报告的原理验

  • 科研团队首次揭示全国范围内蚊虫病毒组特征

    记者3月22日获悉,中山大学、深圳华大生命科学研究院与复旦大学的研究团队合作,揭示了多种蚊虫在不同生境下病毒的多样性、传播分布的影响因素及地理

  • 首批未来产业创新成果惊艳亮相

    全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机

  • 诺基亚手机“掉队”带来的启示

    作为功能机时代的霸主,诺基亚手机曾经创造了巨大的辉煌,但也因错失智能手机发展机遇而“掉队”。近期,外媒Visual Capitalist统计了有史以来最畅销的1

推荐资讯

  • 日榜
  • 周榜
  • 月榜