设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

Mamba架构第一次做大!混合Transformer,打败Transformer

2024-03-29 17:10:16 来源: 量子位

取两架构之长,混合模型Jamba诞生aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

丰色 发自 凹非寺aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAIaNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

520亿参数,还是Mamba+Transformer混合架构。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它的名字叫JambaaNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

初步跑分显示:aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍
Mamba架构第一次做大!混合Transformer,打败Transformer
  • 一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。
Mamba架构第一次做大!混合Transformer,打败Transformer

这项成果,来自以色列AI公司AI21labsaNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba原作者看了之后都激动转发:aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

绝对的“大新闻”。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

Mamba、Transformer,合体

由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

但它也有自己的缺点——aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本着“既要也要”的原则,Jamba站出来提供两全其美之作。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

Jamba由Transformer、Mamba和MoE层组成,可同时优化内存、吞吐量和性能。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如下图所示,为了集成两种架构,Jamba采用块层(blocks-and-layers)组合的创新方法。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

简单来说,就是每个Jamba块包含一个注意力层或一个Mamba层,再跟一个多层感知器MLP,总体比例保证为每八层一个Transformer层aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

其次,Jamba利用MoE来增加模型参数的总量,同时简化推理中使用的活动参数量。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最终模型容量高了,计算需求也没有相应的增加。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而为了在单张GPU(80GB)上最大限度地提高模型吞吐量,Jamba还优化了所用MoE层和专家数量,最终为日常推理工作负载留出足够内存。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

值得一提的是,在推理时,Jamba的MoE层仅需520亿可用参数中的120亿,就能同时保证比同等大小的仅Transformer模型更高效。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

要知道,此前有人光是尝试过扩展Mamba,就没能做到30亿参数之上。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,除了成功合体Mamba和Transformer,Jamba也达成了第二大成就:aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

同类中第一个达到生产级规模和质量的混合架构(SSM混Transformer)(ps. Mamba就是一种状态空间模型SSM)。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

吞吐量和效率up

初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,Jamba可以在长上下文中提供3倍吞吐量,比Mixtral 8x7B等大小相当的Transformer模型都要高效。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如下图所示,当上下文窗口达到128k时,Jamba的每秒token数近乎1500,而此时表现最好的Mixtral 8x7B应该才在500往上的样子。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

其次,在单张GPU上,Jamba最多可以容纳140k上下文,经济又高效。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

相比之下,Mixtral 8x7B为64k,Llama2 70B则仅为16k。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

第三,Jamba的输出质量也得到了保证。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

在如下一系列推理基准上,4项中有3项它都拿下了SOTA。同时,在GSM8K等基准上,Jamba即使没有夺魁,也和SOTA模型打了个不相上下。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总体来说,Jamba的性能接近Mixtral 8x7B。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

最后,作者提示,别忘了,这些都还只是初步改造后的结果,后续还有很多优化空间(比如MoE并行、更快的Mamba实现)。所以到时性能会更强。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

好消息:Jamba现在已经上线Hugging Face,并且划重点:采用apache-2.0许可aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

(Jamba的指令版本则将很快通过AI21labs平台上线。)aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败Transformer

网友看完都感动哭了。aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba架构第一次做大!混合Transformer,打败TransformerMamba架构第一次做大!混合Transformer,打败Transformer

传送门:
https://huggingface.co/ai21labs/Jamba-v0.1aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:
[1]https://www.ai21.com/blog/announcing-jambaaNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://www.ai21.com/jambaaNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://twitter.com/AI21Labs/status/1773350888427438424?s=20aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[4]https://twitter.com/tri_dao/status/1773418926518734957?s=20aNt速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:Mamba架构第一次做大!混合Transformer,打败Transformerhttp://www.sushuapos.com/show-2-4416-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 石头科技年度旗舰扫拖机器人发布 巅峰科技加速行业全维进阶

下一篇: 反英伟达CUDA联盟集结:谷歌英特尔高通牵头,微软亚马逊跑步加入

热门资讯

  • CRISPR能消除培养细胞中艾滋病病毒

    荷兰阿姆斯特丹大学医学院科学家开展的一项新研究证明,利用最新CRISPR-Cas基因编辑技术,能消除实验室中受感染细胞内所有艾滋病病毒(HIV)的痕迹,为治愈

  • 来看金星土星“亲密一刻”

    3月22日黎明,太阳系中最明亮的行星金星与太阳系中拥有最多卫星的行星土星将在东南方低空近距离相伴,上演“结伴游”。北京星空摄影爱好者王俊峰2023

  • 我科学家实现最小资源消耗的量子态分辨

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局

  • 新疆筹建国家级融合算力中心

    记者从近日举办的新疆筹建融合算力中心研讨会上获悉,新疆将构建具备国家级算力水平的涵盖超算、智算的融合算力中心。到2024年底,建成超算算力(FP64)不

  • AI辅助诊断实现无创判定甲状腺结节良恶性

    3月21日,记者从陆军军医大学新桥医院获悉,该院普通外科开通甲乳结节AI早筛门诊,利用AI(人工智能)辅助诊断技术,成功为一名甲状腺乳头状癌患者成功实施手

  • 光储行业迎来2000V新时代

    3月21日,由安徽省工业和信息化厅指导、中国光伏行业协会主办、阳光电源股份有限公司承办的“PAT2024爱光伏一生一世”先进技术研讨会在合肥举办。光

  • 饭后想吃零食或因神经元过度活跃

    那些在吃完一顿饱饭后不久就在冰箱里翻找零食的人,可能不是胃口好,而是因为寻找食物的神经元过度活跃的缘故。美国加州大学洛杉矶分校心理学家在老鼠

  • 多层人造皮肤18天内长成

    美国和法国的科学家联合团队借助新的3D打印技术,开发出一种多层人造皮肤,只需18天即可长成。这种仿真皮肤可用于提升护肤品测试效率,并催生更好的皮肤

  • Sora带来的深层次影响值得关注

    2024年2月,OpenAI公司推出了文生视频人工智能(AI)模型Sora。OpenAI展示了Sora利用少量简短文字提示即可创建逼真视频的能力,并提供了包括一位女士在闪

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 第三颗“厦门造”卫星出征

    3月23日,“天卫科技03星”暨“华祥苑壹号”卫星在厦门举行出征仪式,这是由厦门本土企业天卫科技制造研发的第三颗服务当地建设的商业卫星,标志着厦门

  • 中广核:用创新技术提升核电站“智”力

    在近日开幕的中国国际核工业展览会上,中国核学会理事会党委书记、理事长王寿君表示,中国内地现有在运核电机组55台、居全球第三;在建核电机组26台,保持

推荐资讯

  • 日榜
  • 周榜
  • 月榜