取两架构之长,混合模型Jamba诞生cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
丰色 发自 凹非寺cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
量子位 | 公众号 QbitAIcdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
精彩精彩,第一个把爆火Mamba架构真正扩展到足够大的工作来了。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
520亿参数,还是Mamba+Transformer混合架构。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
它的名字叫Jamba。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

取两种架构之长,模型质量和效率兼得,要吞吐量有吞吐量,要低内存有低内存。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

初步跑分显示:cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
- Jamba性能总体接近Mixtral 8x-7B,处理128k长上下文时吞吐量却是其3倍。

- 一共支持256k上下文,而单张A100 GPU即可处理140k,直接拿下同等规模模型之最,高效又经济。

这项成果,来自以色列AI公司AI21labs。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
Mamba原作者看了之后都激动转发:cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
绝对的“大新闻”。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Mamba、Transformer,合体
由CMU和普林斯顿大学提出的Mamba,解决了Transformer的局限性(随着推理上下文越长,模型内存占用量越大,同时推理速度变慢,由此导致算力消耗巨大)。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
但它也有自己的缺点——cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
在不关注整个上下文的情况下,Mamba的输出质量很差,尤其是在召回相关的任务上。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
本着“既要也要”的原则,Jamba站出来提供两全其美之作。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Jamba由Transformer、Mamba和MoE层组成,可同时优化内存、吞吐量和性能。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
如下图所示,为了集成两种架构,Jamba采用块层(blocks-and-layers)组合的创新方法。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
简单来说,就是每个Jamba块包含一个注意力层或一个Mamba层,再跟一个多层感知器MLP,总体比例保证为每八层一个Transformer层。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次,Jamba利用MoE来增加模型参数的总量,同时简化推理中使用的活动参数量。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
最终模型容量高了,计算需求也没有相应的增加。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
而为了在单张GPU(80GB)上最大限度地提高模型吞吐量,Jamba还优化了所用MoE层和专家数量,最终为日常推理工作负载留出足够内存。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
值得一提的是,在推理时,Jamba的MoE层仅需520亿可用参数中的120亿,就能同时保证比同等大小的仅Transformer模型更高效。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
要知道,此前有人光是尝试过扩展Mamba,就没能做到30亿参数之上。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
因此,除了成功合体Mamba和Transformer,Jamba也达成了第二大成就:cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
同类中第一个达到生产级规模和质量的混合架构(SSM混Transformer)(ps. Mamba就是一种状态空间模型SSM)。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
吞吐量和效率up
初步评估显示,Jamba在吞吐量和效率等关键指标上表现出色。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
首先,Jamba可以在长上下文中提供3倍吞吐量,比Mixtral 8x7B等大小相当的Transformer模型都要高效。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
如下图所示,当上下文窗口达到128k时,Jamba的每秒token数近乎1500,而此时表现最好的Mixtral 8x7B应该才在500往上的样子。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其次,在单张GPU上,Jamba最多可以容纳140k上下文,经济又高效。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
相比之下,Mixtral 8x7B为64k,Llama2 70B则仅为16k。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

第三,Jamba的输出质量也得到了保证。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
在如下一系列推理基准上,4项中有3项它都拿下了SOTA。同时,在GSM8K等基准上,Jamba即使没有夺魁,也和SOTA模型打了个不相上下。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
总体来说,Jamba的性能接近Mixtral 8x7B。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,作者提示,别忘了,这些都还只是初步改造后的结果,后续还有很多优化空间(比如MoE并行、更快的Mamba实现)。所以到时性能会更强。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
好消息:Jamba现在已经上线Hugging Face,并且划重点:采用apache-2.0许可。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
(Jamba的指令版本则将很快通过AI21labs平台上线。)cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

网友看完都感动哭了。cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM


传送门:
https://huggingface.co/ai21labs/Jamba-v0.1cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
参考链接:
[1]https://www.ai21.com/blog/announcing-jambacdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://www.ai21.com/jambacdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://twitter.com/AI21Labs/status/1773350888427438424?s=20cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[4]https://twitter.com/tri_dao/status/1773418926518734957?s=20cdU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
3月18日,在2024年黑龙江农机产品展示交易会上,一部可智能播种,又可助力增产的电驱气吸播种机引发众人关注。这台高端智能电驱气吸播种机的价格与机械播种机价格相当,据悉,研发团队通过自主研发和
21世纪经济报道记者雷晨 北京报道随着人工智能技术的飞速发展,Kimi概念股成为资本市场的新宠。3月21日,受Kimi智能助手技术突破的催化,相关概念股集体走高,市场对AI板块的热情再次被点燃
AI芯片巨头低调赚钱 骆轶琪 在过去一年半导体行业下行周期中,除了英伟达以GPU霸主身份实现业绩快速成长之外,另一些主营虽非GPU,但是立足于AI定制芯片市场的半导体巨头也低调实现了稳健的成长性。 据Gartne
3月24日消息,今日一则#男孩捡17岁女生电话归还反被讹200#的话题登上微博热搜,引发网民热议。据报道,3月23日,山西长治。郭女士父亲捡到一台iPhone电话,归还时机主反称电话后壳里的200元现金不见了。郭
21世纪经济报道记者王峰北京报道 近日,成人职业在线教育企业尚德机构(NYSE:STG)公布了其2023年第四季度及全年未经审计的财务报告。2023年第四季度,尚德机构净收入为5.42亿元(人民币,下
今天(23日)是第64个世界气象日,今年世界气象日的主题是“气候行动最前线”。地球是人类赖以生存和发展的家园,气候变化给人类造成的影响广泛而深远,关乎当下,更关乎未来。世界气象组织确认2023年全
。
本文链接:Mamba架构第一次做大!混合Transformer,打败Transformerhttp://www.sushuapos.com/show-2-4416-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 石头科技年度旗舰扫拖机器人发布 巅峰科技加速行业全维进阶
下一篇: 反英伟达CUDA联盟集结:谷歌英特尔高通牵头,微软亚马逊跑步加入