华为昇腾推出高性能保精度量化方案，更好适配DeepSeek

发布时间: 2025-05-26 14:56:23 来源：观察者网

观看：174

（文/万肇生编辑/张广凯）

近日，华为公开了昇腾服务器上部署DeepSeek V3/R1推理的最佳实践，并介绍了一系列创新技术。

其中，华为在降低计算资源需求方面，创新提出了昇腾亲和的低比特量化解决方案OptiQuant，最终实现了INT8量化模式与FP8的模型推理精度持平。

由于DeepSeek V3/R1模型是基于英伟达生态训练，并推荐使用FP8精度推理，而国产芯片普遍没有原生支持FP8精度，导致国产芯片对DeepSeek的适配不佳。华为昇腾的上述研究应该就是为了解决这一问题。

通常情况下，在模型推理阶段，进行量化（如FP8量化为INT8）可以显著降低模型对硬件的存储需求和计算复杂度，但也会造成模型推理精度的损失以及逻辑错误等问题。因此如何保持推理精度，是低比特量化满足不同平台部署需求时的前提。

据华为介绍，基于BF16的DeepSeek需要1.3TB的显存空间，同时导致极大的算力和跨机通信开销。而校准集的泛化性缺失导致了在很多任务上难以达到与原有模型相近的精度水平，甚至在某些场景下精度下降十分严重。同时，还要考虑如何设计昇腾亲和的量化算法，以发挥硬件性能。

针对上述问题，华为提出了OptiQuant量化框架，一种高性能保精度量化方案，设计了层间自动混精、自动混合校准、离群值抑制、可学习的截断和SSZW参数量化算法。除了支持业界主流量化算法功能之外，它还新增支持三个功能：接入自定义量化算法和数值类型，可以将多种量化算法的自由组合搭配使用；支持业内主流评测数据集和用户自定义的数据校准集；支持数据并行和流水并行，针对不同大小的大语言模型实现精度验证性能加速。

OptiQuant框架主要由以下几个模块组成：

量化类型和数值类型：OptiQuant支持了Int2/4/8和FP8/HiFloat8等数据类型，支持业界的Qserve，HQQ，LUT等量化方法，在此基础上提出了可学习截断和量化参数优化等算法，进一步减少了量化误差。

多样化测试数据集和用户自定义校准集：多样化测试数据集和用户自定义校准集：OptiQuant支持了判断题，问答题，代码题和数学题等多种测试类别，语种上支持了十种常见语言。此外，OptiQuant支持用户自定义校准集，提升模型量化过程中的泛化性。

量化权重生成：OptiQuant提出了自适应层间混精算法，并且根据对应的量化配置生成对应的权重参数，通过去冗余技术减少参数保存的参数量；OptiQuant进一步提出了FlexSQ等算法，在数据校准过程中，对大模型激活异常值进行了平滑处理，有助于对激活做低比特量化。

最终，基于Atlas 800I A2服务器的精度测试实验结果显示，对于DeepSeek-V3-0324模型，W8A8C16和W4A8C16均采用Per-channel量化，实现了推理精度与FP8-GPU持平。

华为表示，在DeepSeek R1/V3大模型推理场景中，实现了INT8量化模式与FP8的模型推理精度持平，而且进一步发挥了华为Atlas 800I A2和CloudMatrix384集群推理硬件性能。而相关代码也将逐步开源。

本文系观察者网独家稿件，未经授权，不得转载。

抖音月付是属于抖音钱包针对优质受邀用户群体开放使用的一款个人消费分期产品。抖音推出首个信用消费产品“月付”,抖音依托于对零售产业数字化的理解,在业内率先将AI等前沿经常使用抖音商城购物的朋友对于抖音月付一定不陌生，抖音月付是属于抖音钱包针对优质受邀用户群体开放使用的一款个人消费分期产品，抖音月付的额度怎样弄出来？抖音月付怎么提抖音月付是抖音推出的一项付费服务，用户可以在抖音上享受更多的特权和优惠。但是，有些用户可能不知道怎样将抖音月付提取到威信账户。首先，需要进入抖音月付的提现页面，然后选抖音是目前非常热门的软件了,几乎是人人都必备的软件,上至70几岁的老人,下至几岁的小孩,人人刷抖音消耗了我们大量的时间。如今抖音也和头条一样推出了借kuan软件,叫做dou分。

本文链接：华为昇腾推出高性能保精度量化方案，更好适配DeepSeekhttp://www.sushuapos.com/show-3-144845-0.html

声明：本网站为非营利性网站，本网页内容由互联网博主自发贡献，不代表本站观点，本站不承担任何法律责任。天上不会到馅饼，请大家谨防诈骗！若有侵权等问题请及时与本网联系，我们将在第一时间删除处理。

上一篇：华为折叠电脑更换全新屏幕需1.5万

下一篇： “去耐克化”，滔搏想做运动品牌的“MCN”

华为昇腾推出高性能保精度量化方案，更好适配DeepSeek

热门资讯

推荐资讯

财经最热文章