一组工程师坐在深圳河套学院一间临时搭起的机房里,盯着一块屏幕上的训练曲线。他们面前是约1000颗昇腾910C芯片组成的算力集群,正在跑DeepSeek V4-Pro的全参数后训练——1.6万亿参数,千卡规模,连续跑了1500步没有一次中断。
关键训练算子的效率,比初始版本提升了14%,最终把算力利用率(MFU)拉到了34.9%。
这个数字放在两年前,整个行业会觉得是在开玩笑。
因为就在2024年初,同一个DeepSeek用上一代R2模型在昇腾上跑的时候,发生过1024卡集群梯度同步超时的故障。当时的CANN版本关键算子缺失、芯片间互联带宽撑不住,那一次跑的是推理,训练根本没敢碰。
从那次翻车,到这一次V4-Pro在千卡集群上跑稳1500步,中间用的不是“继续优化”,而是换了一条完全不同的路。
过去为什么难,因为你一直在做翻译工作2025年之前,国产芯片在大模型厂商手里的角色很固定:推理侧的备胎。原因不复杂——没有人敢用它做训练。
核心问题是整个适配逻辑错了。行业用了十几年的办法是:先拿英伟达的卡跑通模型、调好算子、写完整套代码,做完之后,再把CUDA那套东西“翻译”成昇腾CANN能读懂的版本。这不是开发,是搬家。而且是个极其费力的搬家——一个万亿参数的MoE模型,需要投入10到20个工程师,干3到6个月。

搬完之后,模型的性能大概只剩原版的30%到50%。
相当于你花六个大厨的工资,把法餐菜单翻译成中文,最后炒出来的菜,客人说味道只有原来的三成。
这不是芯片算力不够,是你在别人的厨房里照着别人的菜谱做菜,做完以后换个灶台重新热一下,能好吃才怪。
这次不一样,V4没有先做CUDA版本再搬过来DeepSeek V4换了一条路:它从模型设计的第一天,就直接站在昇腾的厨房里炒菜。
变化不在“最后一步”,而在第一步。V4核心代码是用TileLang语言写的,直接面向昇腾NPU的算力架构和访存特性重写。CANN软件栈原生内置了FlashAttention、PagedAttention这些关键算子,不再需要手动补丁。
昇腾950芯片甚至专门针对V4的MoE模型优化了稀疏数据访问带宽——硬件在给模型开路,而不是软件去适应硬件。
举一个具体的例子就明白了。MoE模型有一大堆“专家”——DeepSeek V4有384个。每次做一个计算任务,网络会自动把活儿分配给其中几个专家。过去在国产芯片上跑MoE,经常出现30%的专家根本不被调用(躺平了),另外10%的专家被反复点名(累趴了),整个系统的通信拥堵率居高不下。
这不是个bug,是通用的调度逻辑天生就处理不了这么精细的专家选择。
V4的做法是换了一种调度方式:提前估算哪些专家可能被点名,把负载预先分配好,同时把每一次通信和计算拆成更短的小段,用“按波调度”的方式把等待时间藏起来。实测的结果是,all-to-all的通信拥堵率直接降了80%。
如果你开过餐厅,这个逻辑很好懂。过去的调度系统像一个只用一张大桌子的服务员——一桌客人来了,他把所有菜都堆在这桌上,一桌没吃完,下一桌的菜没法上。
V4的做法相当于把餐厅换成了几十张小桌子,每桌一上菜,另一桌已经在点了,后厨和前厅始终在转动,没有哪张桌子被冷落,也没有哪个厨师被累死。
Prefill和Decode不再打架了,这就是1.96倍的来源性能数据里最引人注意的一个数字是:强化学习长尾小批次场景下,V4在昇腾上的性能是旧适配版本的1.96倍——接近翻倍。
这个提升不是靠堆更多卡,而是换了一个底层调度逻辑。
在大模型推理过程中,有两步完全不同的计算:Prefill是把你输入的整段话一次读进去,生成第一个字——计算量巨大,需要多张卡并行同时算;Decode是之后一个字一个字往外蹦——每次只算一个新字,但需要反复读取之前存在内存里的所有上下文。
传统架构下,这两步用的是同一套并行策略。结果就像一条流水线上既要处理整箱的大货,又要处理零散的单件,两边都做不到最优。Prefill嫌卡太少,Decode嫌卡太多浪费通信开销。
V4在昇腾上用的方案是P/D分离:Prefill阶段用8张卡做张量并行,全力冲计算;Decode阶段切换为2张卡并行,剩下8张各自独立跑不同请求,通信开销降到底。这就像一条生产线分成两条独立线——一条专门处理大货,一条专门处理小件,各跑各的最大效率。
不改变硬件,只改变调度逻辑,就把两个相互矛盾的任务的性能同时拉满了。1.96倍就是这么来的。
为什么说这次真的消解了生态顾虑从商业角度看,V4这次跑出来的不是一组漂亮数据,而是一套可复用的方法论。
第一个数字是时间。标准模式下一个万亿模型从CUDA迁移到昇腾,需要6个月以上。深圳河套团队做V4的全参数续训练 SFT全链路打通,只用了1个月。人力成本相比传统模式下降70%。
第二个数字是稳定性。连续1500步训练,全程无迭代跳过、无NaN异常、无Loss失控,单步稳定27秒。这背后是一整套长稳监控和故障自动热迁移系统——不是靠运气不出错,是把训练当成生产系统在跑。
第三个变化是行业跟进的速度。寒武纪在V4发布当天就完成了“Day-0适配”,模型发布即运行。腾讯、小米的智能模型平台同步推进昇腾原生适配布局。PyTorch、vLLM、Triton等90多个主流开源社区全部完成了与昇腾的深度对接,主流模型的“发布即适配”已经成了常态。

这意味着,不是只有DeepSeek一家能在这条路上跑。而是他们跑通了一条从芯片、算子库、并行策略到训练流程的完整路径,后来者沿着这条路走,不需要再从零开始踩一遍坑。
结论很简单,生态的疑虑来自不可知,标杆的作用就是消除不可知行业过去怀疑国产芯片生态,不是因为它“肯定不行”,是因为没有人证明过它“可以”。V4这次做的事,就是从模型到芯片、从单步到千卡、从跑通到跑稳,把整条国产算力训练链路上的每一个“不可知”都变成了“已验证”。
在千卡集群上把一个1.6万亿参数的MoE模型跑稳1500步,参数级静态映射、按波调度、P/D分离、动态路由预估都用上了,所有优化方法全部开源可查。这个过程本身,就是在告诉整个行业:这不是个案,这是可复用的工程标准。
黄仁勋把这件事定义为“灾难性的变化”。因为英伟达真正的护城河从来不是单张卡的算力,而是CUDA作为默认起点的软件生态位。一旦有人在另一条生态路径上跑通了完整的产品化验证,这道护城河就不再是不可逾越的。
行业对国产芯片生态的顾虑,本质上是对未知的恐惧。V4用一次全链路跑稳消除了未知。剩下的,就是谁能更早坐上这张新桌子。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112849