设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

2024-03-26 17:05:38 来源: 量子位

ChatGPT反应亮了1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

鱼羊 克雷西 发自 凹非寺1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAI1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克说到做到:1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

旗下大模型Grok现已开源1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

代码和模型权重已上线GitHub。官方信息显示,此次开源的Grok-1是一个3140亿参数的混合专家模型——1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就是说,这是当前开源模型中参数量最大的一个。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

消息一出,Grok-1的GitHub仓库已揽获4.5k标星,并且还在库库猛涨。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

表情包们,第一时间被吃瓜群众们热传了起来。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

而ChatGPT本Chat,也现身Grok评论区,开始了和马斯克新一天的斗嘴……1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

那么,话不多说,来看看马斯克这波为怼OpenAI,究竟拿出了什么真东西。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Grok-1说开源就开源

此次开源,xAI发布了Grok-1的基本模型权重和网络架构。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体来说是2023年10月预训练阶段的原始基础模型,没有针对任何特定应用(例如对话)进行微调。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

结构上,Grok-1采用了混合专家(MoE)架构,包含8个专家,总参数量为314B(3140亿),处理Token时,其中的两个专家会被激活,激活参数量为86B。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

单看这激活的参数量,就已经超过了密集模型Llama 2的70B,对于MoE架构来说,这样的参数量称之为庞然大物也毫不为过。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

不过,在GitHub页面中,官方也提示,由于模型规模较大(314B参数),需要有足够GPU和内存的机器才能运行Grok。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这里MoE层的实现效率并不高,选择这种实现方式是为了避免验证模型的正确性时需要自定义内核。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

模型的权重文件则是以磁力链接的形式提供,文件大小接近300GB。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

而且这个“足够的GPU”,要求不是一般的高——YC上有网友推测,如果是8bit量化的话,可能需要8块H100。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

除了参数量前所未有,在工程架构上,Grok也是另辟蹊径——1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

没有采用常见的Python、PyTorch或Tensorflow,而是选用了Rust编程语言以及深度学习框架新秀JAX。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而在官方通告之外,还有许多大佬通过扒代码等方式揭露了Grok的更多技术细节。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

比如来自斯坦福大学的Andrew Kean Gao,就针对Grok的技术细节进行了详细解释。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

首先,Grok采用了使用旋转的embedding方式,而不是固定位置embedding,旋转位置的embedding大小为 6144,与输入embedding相同。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

当然,还有更多的参数信息:1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 窗口长度为8192tokens,精度为bf16
  • Tokenizer vocab大小为131072(2^17),与GPT-4接近;
  • embedding大小为6144(48×128);
  • Transformer层数为64,每层都有一个解码器层,包含多头注意力块和密集块;
  • key value大小为128;
  • 多头注意力块中,有48 个头用于查询,8 个用于KV,KV 大小为 128;
  • 密集块(密集前馈块)扩展因子为8,隐藏层大小为32768。
马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

除了Gao,还有英伟达AI科学家Ethan He(何宜晖)指出,在专家系统的处理方面,Grok也与另一知名开源MoE模型Mixtral不同——1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

Grok对全部的8个专家都应用了softmax函数,然后从中选择top2专家,而Mixtral则是先选定专家再应用softmax函数。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

而至于有没有更多细节,可能要看官方会不会发布进一步的消息了。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

另外,值得一提的是,Grok-1采用的是Apache 2.0 license,也就是说,商用友好1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为怼OpenAI怒而Open

大家伙知道,马斯克因为OpenAI不Open,已经向旧金山高等法院提起诉讼,正式把OpenAI给告了。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过当时马斯克自己搞的Grok也并没有开源,还只面向的付费用户开放,难免被质疑双标。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

大概是为了堵上这个bug,马斯克在上周宣布:1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本周,xAI将开源Grok。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

虽然时间点上似乎又是马斯克一贯的迟到风格,但xAI的这波Open如今看来确实不是口嗨,还是给了网友们一些小小的震撼。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

有xAI新晋员工感慨说:1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这将是激动人心的一年,快系好安全带吧。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

有人已经期待起Grok作为一个开源模型,进一步搅动大模型竞争的这一池水。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不过,也并不是每个人都买马斯克的账:1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

不过说归说,多线并进的马斯克,最近大事不止开源Grok这一件。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

作为多公司、多业务的时间管理大师,马斯克旗下,特斯拉刚刚全线推出了端到端纯视觉的自动驾驶系统FSD V12,所有北美车主用户,都OTA更新升级,可以实现所有道路场景的任意点到点AI驾驶。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

SpaceX则完成了第三次星舰发射,虽然最后功败垂成,但又史无前例地迈进了一大步。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

推特则开源了推荐算法,然后迎来了一波自然流量新高峰。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

别人都是 you can you up, no can no bb…马斯克不一样,bb up不选择,边喊边干,还都干成了。1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

马斯克突然开源Grok:3140亿参数巨无霸,免费可商用

参考链接:
[1]https://github.com/xai-org/grok-1
[2]https://x.ai/blog/grok-os1oU速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:马斯克突然开源Grok:3140亿参数巨无霸,免费可商用http://www.sushuapos.com/show-2-4204-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 月之暗面Kimi模型升级:200万字窗口版可申请,新增“继续”功能

下一篇: 大模型落地“诸神之战”,场景玩家先杀出重围了

热门资讯

  • 站在“人工智能+”探索前列

    今年全国两会期间,人工智能成为热点话题,“人工智能+”首次被写入政府工作报告。一头连着数字经济发展大局,一头连着行业变革与创新,“人工智能+”既是

  • 洞悉竹类植物有了称手“利器”

    竹类植物是竹亚科植物的总称,与水稻、小麦、大麦和燕麦同属于禾本科BOP分支,具有重要的经济、生态和文化价值。为更好地服务竹类植物的系统进化和功

  • 我科学家实现最小资源消耗的量子态分辨

    记者3月20日从中国科学技术大学获悉,该校郭光灿院士团队在量子态分辨研究中取得重要进展。研究组在最小资源消耗的量子态分辨问题中首次提出了全局

  • 培生2023年财报业绩超出预期,持续加码数字产品

    21世纪经济报道记者王峰北京报道 近日,全球教育集团培生(NYSE:PSO)公布2023财年财报。2023财年,培生的销售额为36.74亿英镑(下同),同比下降4%,但基

  • 英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫?

      英伟达AI风暴席卷医疗行业 “AI制药”是风口还是泡沫?  季媛媛  全球医疗健康行业正刮起最强AI风暴。  当地时间3月18日,全球瞩目的顶级AI盛会――英伟达2024年GPU

  • 12类健康食品获电商10亿资源扶持 “吃得健康”酝酿产业机会

    21世纪经济报道记者孔海丽、实习生邓熙涵 北京报道“民以食为天,食与民同欢”,吃得健康、吃得安全是消费者长期以来的普遍共识。当代消费者

  • 植物避盐性的关键基因被发现

    记者3月21日从安徽农业大学获悉,该校生命科学学院韩毅教授课题组与国内外专家合作,发现了植物避盐性的关键基因。该研究对于提高植物耐盐性,帮助盐碱

  • 科学家提出人类性别决定新理论

    3月18日,记者从中南大学生殖与干细胞研究所获悉,研究所林戈、卢光琇教授团队提出的一项新理论称,原始生殖细胞的性染色体组成在人类性别决定中起关键

  • 人工纳米流体突触可实现存内计算

    瑞士洛桑联邦理工学院工程学院研究团队制造了一种用于内存的新型纳米流体设备,这使他们第一次能连接两个“人工突触”。该设备为受大脑启发的液体硬

  • 我国网民规模达10.92亿人:互联网普及率77.5%!

    3月22日消息,中国互联网络信息中心(CNNIC)今天发布了《中国互联网络变化状况计算报告》。《报告》显示,截至2023年12月,我国网民规模达10.92亿人,较2022年12

  • 首发第三代骁龙7+!一加Ace 3V图赏

    3月22日消息,一加Ace 3V昨晚发布,起售价1999元,将于3月25日正式发售。现在这款新机已经来到我们评测室,下面为大家带来图赏。一加Ace 3V全球首发第三代骁龙

  • 外媒:夏普拟缩小液晶业务,旗下显示器或停产

      中新经纬3月22日电 据《日本经济新闻》22日报道,夏普正在讨论缩小液晶显示器业务,夏普已将子公司显示器(SDP、位于市)停产纳入视野。显示器业务持续陷入苦战,成为夏普在202

推荐资讯

  • 日榜
  • 周榜
  • 月榜