(文/万肇生 编辑/张广凯)
近日,华为公开了昇腾服务器上部署DeepSeek V3/R1推理的最佳实践,并介绍了一系列创新技术。
其中,华为在降低计算资源需求方面,创新提出了昇腾亲和的低比特量化解决方案OptiQuant,最终实现了INT8量化模式与FP8的模型推理精度持平。
由于DeepSeek V3/R1模型是基于英伟达生态训练,并推荐使用FP8精度推理,而国产芯片普遍没有原生支持FP8精度,导致国产芯片对DeepSeek的适配不佳。华为昇腾的上述研究应该就是为了解决这一问题。
通常情况下,在模型推理阶段,进行量化(如FP8量化为INT8)可以显著降低模型对硬件的存储需求和计算复杂度,但也会造成模型推理精度的损失以及逻辑错误等问题。因此如何保持推理精度,是低比特量化满足不同平台部署需求时的前提。
据华为介绍,基于BF16的DeepSeek需要1.3TB的显存空间,同时导致极大的算力和跨机通信开销。而校准集的泛化性缺失导致了在很多任务上难以达到与原有模型相近的精度水平,甚至在某些场景下精度下降十分严重。同时,还要考虑如何设计昇腾亲和的量化算法,以发挥硬件性能。
针对上述问题,华为提出了OptiQuant量化框架,一种高性能保精度量化方案,设计了层间自动混精、自动混合校准、离群值抑制、可学习的截断和SSZW参数量化算法。除了支持业界主流量化算法功能之外,它还新增支持三个功能:接入自定义量化算法和数值类型,可以将多种量化算法的自由组合搭配使用;支持业内主流评测数据集和用户自定义的数据校准集;支持数据并行和流水并行,针对不同大小的大语言模型实现精度验证性能加速。
OptiQuant框架主要由以下几个模块组成:
量化类型和数值类型:OptiQuant支持了Int2/4/8和FP8/HiFloat8等数据类型,支持业界的Qserve,HQQ,LUT等量化方法,在此基础上提出了可学习截断和量化参数优化等算法,进一步减少了量化误差。
多样化测试数据集和用户自定义校准集:多样化测试数据集和用户自定义校准集:OptiQuant支持了判断题,问答题,代码题和数学题等多种测试类别,语种上支持了十种常见语言。此外,OptiQuant支持用户自定义校准集,提升模型量化过程中的泛化性。
量化权重生成:OptiQuant提出了自适应层间混精算法,并且根据对应的量化配置生成对应的权重参数,通过去冗余技术减少参数保存的参数量;OptiQuant进一步提出了FlexSQ等算法,在数据校准过程中,对大模型激活异常值进行了平滑处理,有助于对激活做低比特量化。
最终,基于Atlas 800I A2服务器的精度测试实验结果显示,对于DeepSeek-V3-0324模型,W8A8C16和W4A8C16均采用Per-channel量化,实现了推理精度与FP8-GPU持平。
华为表示,在DeepSeek R1/V3大模型推理场景中,实现了INT8量化模式与FP8的模型推理精度持平,而且进一步发挥了华为Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相关代码也将逐步开源。
本文系观察者网独家稿件,未经授权,不得转载。
2026年3月10日,据某运营商采购与招标网披露,北京思特奇信息技术股份有限公司(以下简称"思特奇")成功中标西南某运营商2026-2027年云管平台软件产品集中采购项目。该项目旨在满足运营商业务发展需求,实现云资源统一管理调度 中新经纬3月19日电 A股4家快递公司3月19日陆续公布了2月快递业务经营情况。总体来看,单票收入方面,4家公司均实现增长。 具体来看,顺丰控股2月速运物流业务营业收入164.21亿元,同比增长24.88%;业务量10.72亿票,同比 中新经纬3月19日电 国家市场监督管理总局网站19日消息,2025年,我国共实施汽车召回190次,涉及车辆684.6万辆,分别较上年下降18.5%和39.1%。实施新能源汽车召回105次,涉及车辆265.2万辆,占全年召回总数量的38.7%。实施远 中新经纬3月19日电 据工业和信息化部网络安全威胁和漏洞信息共享平台公众号消息,近日,工业和信息化部网络安全威胁和漏洞信息共享平台(NVDB)监测发现,Windows远程桌面服务(RDS)存在权限提升高危漏洞,已被用于网络攻击 。本文链接:华为昇腾推出高性能保精度量化方案,更好适配DeepSeekhttp://www.sushuapos.com/show-3-144845-0.html
声明:本网站为非营利性网站,本网页内容由互联网博主自发贡献,不代表本站观点,本站不承担任何法律责任。天上不会到馅饼,请大家谨防诈骗!若有侵权等问题请及时与本网联系,我们将在第一时间删除处理。
上一篇: 华为折叠电脑更换全新屏幕需1.5万