DeepSeek V4为昇腾定制训练性能翻倍，如何打消国产AI芯片生态顾虑-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4为昇腾定制训练性能翻倍，如何打消国产AI芯片生态顾虑

DeepSeek V4为昇腾定制训练性能翻倍，如何打消国产AI芯片生态顾虑

来源：科技棱镜

2026-06-10 11:27:25

166

管理

一组工程师坐在深圳河套学院一间临时搭起的机房里，盯着一块屏幕上的训练曲线。他们面前是约1000颗昇腾910C芯片组成的算力集群，正在跑DeepSeek V4-Pro的全参数后训练——1.6万亿参数，千卡规模，连续跑了1500步没有一次中断。

关键训练算子的效率，比初始版本提升了14%，最终把算力利用率（MFU）拉到了34.9%。

这个数字放在两年前，整个行业会觉得是在开玩笑。

因为就在2024年初，同一个DeepSeek用上一代R2模型在昇腾上跑的时候，发生过1024卡集群梯度同步超时的故障。当时的CANN版本关键算子缺失、芯片间互联带宽撑不住，那一次跑的是推理，训练根本没敢碰。

从那次翻车，到这一次V4-Pro在千卡集群上跑稳1500步，中间用的不是“继续优化”，而是换了一条完全不同的路。

过去为什么难，因为你一直在做翻译工作

2025年之前，国产芯片在大模型厂商手里的角色很固定：推理侧的备胎。原因不复杂——没有人敢用它做训练。

核心问题是整个适配逻辑错了。行业用了十几年的办法是：先拿英伟达的卡跑通模型、调好算子、写完整套代码，做完之后，再把CUDA那套东西“翻译”成昇腾CANN能读懂的版本。这不是开发，是搬家。而且是个极其费力的搬家——一个万亿参数的MoE模型，需要投入10到20个工程师，干3到6个月。

搬完之后，模型的性能大概只剩原版的30%到50%。

相当于你花六个大厨的工资，把法餐菜单翻译成中文，最后炒出来的菜，客人说味道只有原来的三成。

这不是芯片算力不够，是你在别人的厨房里照着别人的菜谱做菜，做完以后换个灶台重新热一下，能好吃才怪。

这次不一样，V4没有先做CUDA版本再搬过来

DeepSeek V4换了一条路：它从模型设计的第一天，就直接站在昇腾的厨房里炒菜。

变化不在“最后一步”，而在第一步。V4核心代码是用TileLang语言写的，直接面向昇腾NPU的算力架构和访存特性重写。CANN软件栈原生内置了FlashAttention、PagedAttention这些关键算子，不再需要手动补丁。

昇腾950芯片甚至专门针对V4的MoE模型优化了稀疏数据访问带宽——硬件在给模型开路，而不是软件去适应硬件。

举一个具体的例子就明白了。MoE模型有一大堆“专家”——DeepSeek V4有384个。每次做一个计算任务，网络会自动把活儿分配给其中几个专家。过去在国产芯片上跑MoE，经常出现30%的专家根本不被调用（躺平了），另外10%的专家被反复点名（累趴了），整个系统的通信拥堵率居高不下。

这不是个bug，是通用的调度逻辑天生就处理不了这么精细的专家选择。

V4的做法是换了一种调度方式：提前估算哪些专家可能被点名，把负载预先分配好，同时把每一次通信和计算拆成更短的小段，用“按波调度”的方式把等待时间藏起来。实测的结果是，all-to-all的通信拥堵率直接降了80%。

如果你开过餐厅，这个逻辑很好懂。过去的调度系统像一个只用一张大桌子的服务员——一桌客人来了，他把所有菜都堆在这桌上，一桌没吃完，下一桌的菜没法上。

V4的做法相当于把餐厅换成了几十张小桌子，每桌一上菜，另一桌已经在点了，后厨和前厅始终在转动，没有哪张桌子被冷落，也没有哪个厨师被累死。

Prefill和Decode不再打架了，这就是1.96倍的来源

性能数据里最引人注意的一个数字是：强化学习长尾小批次场景下，V4在昇腾上的性能是旧适配版本的1.96倍——接近翻倍。

这个提升不是靠堆更多卡，而是换了一个底层调度逻辑。

在大模型推理过程中，有两步完全不同的计算：Prefill是把你输入的整段话一次读进去，生成第一个字——计算量巨大，需要多张卡并行同时算；Decode是之后一个字一个字往外蹦——每次只算一个新字，但需要反复读取之前存在内存里的所有上下文。

传统架构下，这两步用的是同一套并行策略。结果就像一条流水线上既要处理整箱的大货，又要处理零散的单件，两边都做不到最优。Prefill嫌卡太少，Decode嫌卡太多浪费通信开销。

V4在昇腾上用的方案是P/D分离：Prefill阶段用8张卡做张量并行，全力冲计算；Decode阶段切换为2张卡并行，剩下8张各自独立跑不同请求，通信开销降到底。这就像一条生产线分成两条独立线——一条专门处理大货，一条专门处理小件，各跑各的最大效率。

不改变硬件，只改变调度逻辑，就把两个相互矛盾的任务的性能同时拉满了。1.96倍就是这么来的。

为什么说这次真的消解了生态顾虑

从商业角度看，V4这次跑出来的不是一组漂亮数据，而是一套可复用的方法论。

第一个数字是时间。标准模式下一个万亿模型从CUDA迁移到昇腾，需要6个月以上。深圳河套团队做V4的全参数续训练 SFT全链路打通，只用了1个月。人力成本相比传统模式下降70%。

第二个数字是稳定性。连续1500步训练，全程无迭代跳过、无NaN异常、无Loss失控，单步稳定27秒。这背后是一整套长稳监控和故障自动热迁移系统——不是靠运气不出错，是把训练当成生产系统在跑。

第三个变化是行业跟进的速度。寒武纪在V4发布当天就完成了“Day-0适配”，模型发布即运行。腾讯、小米的智能模型平台同步推进昇腾原生适配布局。PyTorch、vLLM、Triton等90多个主流开源社区全部完成了与昇腾的深度对接，主流模型的“发布即适配”已经成了常态。

这意味着，不是只有DeepSeek一家能在这条路上跑。而是他们跑通了一条从芯片、算子库、并行策略到训练流程的完整路径，后来者沿着这条路走，不需要再从零开始踩一遍坑。

结论很简单，生态的疑虑来自不可知，标杆的作用就是消除不可知

行业过去怀疑国产芯片生态，不是因为它“肯定不行”，是因为没有人证明过它“可以”。V4这次做的事，就是从模型到芯片、从单步到千卡、从跑通到跑稳，把整条国产算力训练链路上的每一个“不可知”都变成了“已验证”。

在千卡集群上把一个1.6万亿参数的MoE模型跑稳1500步，参数级静态映射、按波调度、P/D分离、动态路由预估都用上了，所有优化方法全部开源可查。这个过程本身，就是在告诉整个行业：这不是个案，这是可复用的工程标准。

黄仁勋把这件事定义为“灾难性的变化”。因为英伟达真正的护城河从来不是单张卡的算力，而是CUDA作为默认起点的软件生态位。一旦有人在另一条生态路径上跑通了完整的产品化验证，这道护城河就不再是不可逾越的。

行业对国产芯片生态的顾虑，本质上是对未知的恐惧。V4用一次全链路跑稳消除了未知。剩下的，就是谁能更早坐上这张新桌子。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4 的另一层意义：八款国产芯片，Day0 上车

1小时前

DeepSeek R1暴力用法2026终极版：5个99%的人不知道的神技

1小时前