设置
  • 日夜间
    随系统
    浅色
    深色
  • 主题色

国产GPU重大利好!“中国英伟达”千卡集群已就位

2024-04-29 11:08:13 来源: 量子位

56天训完1300亿参数大模型sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

金磊 发自 凹非寺sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

量子位 | 公众号 QbitAIsPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

算力基础设施建设,北京市有了最新的大动作——sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

《北京市算力基础设施建设实施方案(2024-2027年)》。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

其中,《方案》在“保障措施”中提出了对企业利好的办法:sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 对采购自主可控GPU芯片开展智能算力服务的企业,按照投资额的一定比例给予支持,加速实现智算资源供给自主可控。
  • 对主动进行绿色节能改造的存量数据中心,按照投资额的一定比例给予支持。

对企业扩大资金的举措,意在提升人工智能算力券政策效能,鼓励企业用好智能算力资源,加快推动大模型赋能行业应用。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

除此之外,在《方案》的规划目标中,也释放出了一个重要的信号——智算资源供给集群化sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

改变智算建设“小、散”局面,集中建设一批智算单一大集群。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

到2025年,本市智算供给规模达到45EFLOPS,2025-2027年根据人工智能大模型发展需要和国家相关部署进一步优化算力布局。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

为何会如此?这就要结合当下算力市场的需求供给展开来看了。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一方面,自从ChatGPT问世引爆AIGC以来,大模型的数量可谓是极速增长,单是北京这一座城市,就已经拥有122家大模型创新团队,约占全国的一半,大模型数量更是居全国首位。对于算力市场的需求之大可见一斑。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

不仅如此,随着Sora、Suno等应用的问世,大模型的发展已然加速驶入多模态阶段,AI算力的需求在Scaling Law为主旋律的当下还会持续上涨。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位△图源:由DALL·E 3生成

另一方面,AIGC诚然带火了“N卡”,但目前着眼于全球已然是一卡难求的态势,并且因稀缺导致其价格日益水涨船高。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且单从GPU的性能角度来看,即便是英伟达也只能接受加速计算到达了临界点的事实,算力供给方需要另一种方式来进行计算——sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过芯片与芯片间的连接技术,一步步构建出大型AI大规模算力集群sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

聚焦到国内,其实这种“集群”模式也已经紧锣密鼓地在展开,国内已有不少厂商在不断探索和实践,例如云计算巨头华为云、AI芯片公司摩尔线程等等。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以摩尔线程为例,就在前不久他们发布了名为夸娥(KUAE)的智算集群解决方案,旨在以一体化交付的方式解决大规模GPU算力的建设和运营管理问题,可以大幅降低传统算力建设、应用开发和运维运营平台搭建的时间成本。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

从这一点来看,国内市场算力的发展是与《方案》所提出的“智算资源供给集群化”是相契合的,也从侧面印证着国产GPU智算集群已经到了势在必行的阶段。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

然而,路线虽已清晰,但在实践过程当中,尤其是GPU数量达到千卡甚至万卡时,集群落地并非是件易事。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么难点都有什么?国产GPU又是如何应对的?我们继续往下看。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

千卡GPU集群落地痛点

首先我们需要了解GPU集群在实际落地过程中的规模会达到什么量级。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

以Llama 3为例,在它问世之际,Meta就公布了其基础设施详情:sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们在两个定制的24K GPU集群上做训练。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

与之类似的,马斯克的Grok 2据悉训练已经用了20000张H100,Grok 3更是传出需要惊人的100000张;即使是参数量仅为30亿的Sora,GPU的数量也估算在4200至10500张之间。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而事实上,当下要满足一些基础模型的算力需求,千卡集群已然是标配一样的存在;这不仅仅是因为千卡是大集群的基本单元,更是因为百卡或更小规模的GPU数量往往满足不了大模型训练需求,只能是实验性的。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

但智算集群中GPU的数量也还只是一方面,之于GPU本身,在诸如训练大模型等落地过程中的难点也是不少。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因为建设集群本身还是一个非常复杂的系统性工程,它不仅是堆GPU这么简单,从一个GPU到一个服务器,再到把它们组成群,期间包含了硬件的网络、存储、软件、再到大模型调度等各种细节因素,均会影响到集群的最终性能。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如同样是Llama 3,Meta在介绍基础设施的时候还提到了一个关键信息:sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

当在16K GPU上同时训练时,我们有效地实现了每个GPU超过400 TFLOPS的计算利用率。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

若是每张卡的利率用不够高,很显然就会降低最终智算集群的效率。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

再如分布式训练过程中,一张卡坏掉就会影响整体的训练,对于千卡甚至更大规模的集群来说,这种情况出现的概率就会更高;因此对于千卡集群的稳定性和可靠性也提出了极高的要求。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

聚焦到国产智算集群,还需得具备可以兼容主流GPU软件的能力(例如CUDA),由此才能应对更多且日新月异的主流大模型任务。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

……sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

一言蔽之,构建千卡智算集群难,构建国产千卡智算集群难上加难。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

如何破局?

虽说困境重重,但也正如上文所言,摩尔线程已经在探索与实践,并且他们在构建千卡智算集群这件事上也已交出了“高分作业”sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

我们不妨以摩尔线程的夸娥(KUAE)智算中心解决方案为例,来看下构建国产GPU智算集群的破局之道。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整体来看,夸娥(KUAE)智算中心解决方案是一个以全功能GPU为底座,软硬件一体化的全栈的解决方案。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

之所以叫做全栈,是因为夸娥的能力是触及到了构建GPU智算集群中的方方面面,包括最底层的基础设施建设、中间层的智算集群管理,以及上层的大模型服务sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

首先来看基础设施sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从内容上来看主要包含夸娥(KUAE)计算集群、RDMA网络与分布式存储三大方面。据了解,其建设周期只需30天,可支持千亿参数模型的预训练、微调和推理,可实现高达91%的千卡集群性能扩展系数。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且基于大规模智算加速卡MTT S4000和双路8卡GPU服务器MCCX D800的能力,夸娥集群还支持从单机多卡到多机多卡,从单卡到千卡集群的无缝扩展。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据悉未来将推出更大规模的集群,以满足更大规模的大模型训练需求。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

其次是集群管理平台sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这一软硬件一体化平台主要是用于AI大模型训练、分布式图形渲染、流媒体处理和科学计算等工作,深度集成全功能GPU计算、网络和存储,提供高可靠、高算力服务。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

通过这个平台,用户可灵活管理多数据中心、多集群算力资源,集成多维度运维监控、告警和日志系统,帮助智算中心实现运维自动化。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后是模型服务sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

覆盖了大模型预训练、微调和推理全流程,支持所有主流开源大模型。通过摩尔线程MUSIFY开发工具,可以轻松复用CUDA应用生态,内置的容器化解决方案,则可实现API一键部署。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

这个平台意在提供大模型生命周期管理,通过简洁、易操作的交互界面,用户可按需组织工作流,大幅降低大模型的使用门槛。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

那么实际效果如何?sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据了解,摩尔线程目前已经支持了包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等在内的各类主流大模型的训练和微调:sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

  • 以200B训练数据量为例,智源研究院70B参数Aquila2可在33天完成训练
  • 1300亿参数规模的模型可在56天完成训练

至于刚才提到的千卡GPU集群落地难的种种细节,摩尔线程也有自己的应对策略。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

例如在提高集群算力利用率这件事上,摩尔线程采用软硬件协同设计和端到端的并行策略,通过对集群通信库的算法、网络拓扑和硬件的规格进行精心设计与配置,实现了高度的集群兼容性。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

具体到技术,则是综合利用了MTLink和PCIe,使得通讯性能提升一倍,综合调优下MFU提升幅度超过50%。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

稳定性方面,摩尔线程在根儿上先保证GPU的质量,从卡出厂开始便进行多项严格的检测。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其后,摩尔线程还开发了集群系统监控和诊断工具,有助于筛选和快速定位到有问题的卡和服务器,可以自动恢复和硬件替换。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且结合异步检查点(Checkpoint)加速,写的时间从10分钟降到秒级,读的速度从40分钟降到2分钟;即使是遇到训练异常,系统也可以自动重新拉起。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

可扩展性方面,夸娥目前已经支持了包括DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale在内的业界主流分布式框架。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

除此之外,还融合了多种并行算法策略,包括数据并行、张量并行、流水线并行和ZeRO,且针对高效通信计算并行和Flash Attention做了额外优化。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

最后,在兼容性方面,摩尔线程代码移植Musify工具,可快速将现有的主流迁移至MUSA,零成本完成CUDA代码自动移植sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

借助摩尔线程元计算统一系统架构MUSA,用户还可以复用PyTorch开源社区的大量模型算子,降低开发成本。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

整体而言,摩尔线程的夸娥智算集群全栈方案的优势可以归结为八点,即:覆盖主流大模型、兼容CUDA等主流生态、断点续训、大语言模型分布式训练、加速推理、高性能通信、高性能存储,以及高可靠性。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

它就像把所有复杂的方案打包成了一把钥匙,交付到用户手上开箱即用。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而且摩尔线程的夸娥(KUAE)智算集群解决方案不只是说说那么简单,是已经做到了上岗。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

据了解,夸娥目前已经完成了三个千卡智算集群的落地,分别位于北京亦庄北京密云南京sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

国产GPU重大利好!“中国英伟达”千卡集群已就位

不仅如此,摩尔线程仍在持续谱写着“打造国产GPU集群”的篇章。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

就在前不久,摩尔线程与清华系创业公司无问芯穹达成合作,成为第一家接入无问芯穹并成功完成千卡级别大模型训练的国产GPU公司。双方联合推进基于夸娥(KUAE)千卡智算集群的“MT-infini-3B”合作大模型实训,目前性能已在同规模模型中跻身前列。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

并且无问芯穹CEO公开肯定了夸娥(KUAE)的实力:sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

经验证,摩尔线程夸娥千卡智算集群在性能、稳定性、易用性和算力利用率上均有优异表现,可以为千亿参数级别大模型训练提供持续高效的高性能算力支持。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

由此可见,摩尔线程的夸娥千卡智算集群是得到了实践验证的那种,那么最后一个问题便是:为什么是摩尔线程能率先落地?sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

其实早在2022年的时候,团队便已经设定了建集群的大方向与策略,这是因为当时A100算力也是处于紧缺的状态,国内市场急需能够替代它的产品。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

从GPU功能情况来看,摩尔线程是在唯一可以对标英伟达的国产GPU企业,虽然单芯片性能还有差距,但若是集成起来便可解决单一性的不足。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

而随着2023年大模型的火爆,这种GPU集群式的方向就显得更加正确,毕竟黄仁勋在发布B200之际就表示“我们需要更大的GPU,如果不能更大,就把更多GPU组合在一起,变成更大的虚拟GPU”。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

因此,现在回头再看摩尔线程当时的策略和决定,确实是具备前瞻性的。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

总而言之,有实力,有技术,有战略,也有成绩,摩尔线程还将在国产GPU的发展道路上带来怎样的惊喜,是值得期待了。sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

参考链接:sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[1]https://www.mthreads.com/product/KUAEsPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[2]https://jxj.beijing.gov.cn/zwgk/zcjd/202404/t20240425_3637629.htmlsPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM
[3]https://ai.meta.com/blog/meta-llama-3/sPf速刷资讯——每天刷点最新资讯,了解这个世界多一点SUSHUAPOS.COM

本文链接:国产GPU重大利好!“中国英伟达”千卡集群已就位http://www.sushuapos.com/show-2-5493-0.html

声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。

上一篇: 人工几十万,AI几十块!国产玩家证明了AIGC视频商业化威力

下一篇: AI机器人开始卷家务了,深圳创业果然务实

热门资讯

  • 创新中药八子补肾胶囊抗衰老研究取得重大突破

    3月20日对于我国抗衰老研究是个特殊的日子,经过近3年的不懈努力,八子补肾胶囊抗衰老取得又一重大突破。挑战人类生命极限是摆在全球科学家面前的重大

  • 阿尔茨海默病早期症状可能表现在视力上

    据阿根廷布宜诺斯艾利斯经济新闻网报道,一项国际研究发现,阿尔茨海默病的早期症状可能表现在视力上。研究显示,即便眼科检查结果正常,但阅读、估计距离

  • 专家:警惕常见睡眠认知误区

    3月21日是世界睡眠日,中国主题为“健康睡眠 人人共享”。近日发布的《2023年中国居民睡眠白皮书》显示,我国居民平均睡眠时长6.75小时,平均在零点后入

  • 12项首创技术助力高速公路改扩建

    记者3月20日来到广东深汕西高速公路改扩建施工现场,看到智能机器人、自动化生产线等智能制造设备在不停运行。3月19日—20日,由茅以升科技教育

  • 培生2023年财报业绩超出预期,持续加码数字产品

    21世纪经济报道记者王峰北京报道 近日,全球教育集团培生(NYSE:PSO)公布2023财年财报。2023财年,培生的销售额为36.74亿英镑(下同),同比下降4%,但基

  • CSHIA与创米数联联合发布《2024智能门创新趋势报告》

    2024年03月19日,以“初心如磐•向新出发”为主题的2024智能家居UP峰会CSHIA智能家居开年盛典在杭州成功举行。大会现场,由全国专业标准化技术委

  • “婴儿香”原来是真的香

    所谓香喷喷的婴儿,到底是源于人们的爱意,还是说确有其香?《通讯·化学》21日一项小型研究首次分析了婴儿和青少年体味化学组成的差异。研究显示

  • AI芯片巨头低调赚钱

      AI芯片巨头低调赚钱  骆轶琪  在过去一年半导体行业下行周期中,除了英伟达以GPU霸主身份实现业绩快速成长之外,另一些主营虽非GPU,但是立足于AI定制芯片市场的半导体巨

  • Kimi累趴下了,券商仍看好

    21世纪经济报道记者雷晨 北京报道近日,国内AI领域的明星产品——Kimi智能助手,因流量激增遭遇了短暂的服务中断。月之暗面随后发布公告,对此

  • 曝huaweiMate60已停产!P70蓄势待发:下个月见

    近日有消息称,huaweiMate60已经停产。作为huawei于2023年8月末发布的最新旗舰机型,huaweiMate60的停产意味着huawei新款旗舰或即将上市,接替Mate60。2023

  • 首批未来产业创新成果惊艳亮相

    全球首台无细胞蛋白质合成生物反应器、全球首台全高温超导托卡马克装置(洪荒70)、64比特超导量子计算机研发与产业化项目、深海可燃冰探采重载作业机

  • 北京市青少年科学教育基地揭牌

    为构建有效联动、密切配合的青少年科学教育协同机制,提升科学教育实施效能,3月23日,北京市关心下一代工作委员会(以下简称“北京市关工委”)、北京市科

推荐资讯

  • 日榜
  • 周榜
  • 月榜