DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

DeepSeek V4芯模协同背后，国产算力生态开始飞轮加速

来源：量子位

2026-06-04 15:46:26

161

管理

henry 发自凹非寺

量子位 | 公众号 QbitAI

DeepSeek V4发布，比模型本身更受关注的，是一个根本性的转变：

国产算力生态正在从过去“芯片被动适配模型”的单向奔赴，迈向“芯模协同”的新阶段。

之前，昇腾与不少模型进行过协同探索，但V4是第一次在大规模、高强度、工程化的尺度上，验证了这种“芯模协同”的可行性与效率。

而这，恰恰是过去CUDA 英伟达体系最深的一层护城河——

模型、框架、芯片在长周期中的共同演化。

昇腾正在补的，不是某一行代码，而是这十多年的时间。

但与此同时，更大的变化也正在鲲鹏昇腾开发者生态里发生。

过去一年，金融、科研、AI训练等领域，越来越多团队开始把核心业务迁移到鲲鹏昇腾上；越来越多开发者开始参与到底层能力、框架适配和社区共建里。

这些案例或许没有V4那样的传播声量，却和V4一起，共同构成了鲲鹏昇腾生态真正的变化。它们最终都在指向同一件事：

鲲鹏昇腾，正在慢慢越过“能用”那条线。

而这一点，在刚刚结束的鲲鹏昇腾开发者大会2026开发者圆桌上，也被不少一线开发者反复提到。

变在哪？圆桌上大家指向了三件事：适配效率、性能天花板、生产级信任。

适配效率

众所周知，芯片决定的是算力上限，生态决定的，才是算力能不能真正释放出来。

没有生态，再强的硬件也只是能点亮。开发者依然会卡在算子不支持、框架迁移困难、集群调度复杂这些细节里。

这也是此前很多开发者不愿迁移、或者迁不动的原因。

而这件事，正在发生变化。

AIGCode分享了自己加入昇腾生态的原因。创始人陈秋武在圆桌上没藏着：

说实话，一开始是因为穷。2024年初没有卡，我们是创业小公司。

但用起来之后，变化来得比预想快。

中科大团队迁移高性能计算求解器到鲲鹏，编译层面不到一周搞定。

团队的陈俊仕说，碰到的问题更多是编译器版本、环境配置这类工程细节，跟架构本身关系不大。

这其实是一个很重要的信号。

四个团队，四种完全不同的场景，呈现出同一种趋势：开发过程中问题的解决已经不依赖厂商贴身服务了。

这就意味着，国产算力最难的阶段，可能已经过去了。

性能天花板

适配只是第一步。真正决定开发者会不会留下来的，还是性能。

AIGCode在昇腾上，把MoE模型预训练的MFU（算力利用率）做到了65%。这个数字，已经接近行业平均水平的两倍。

换句话说，同样一张卡，真正干活的时间更多了。

陈秋武在圆桌上的说法很直接：

一张卡，能顶两张用。

而支撑这一效率的关键之一，是昇腾超节点。

预训练进入千卡时代后，真正困难的已经不再只是单卡性能，而是大规模集群下的通信与调度效率。

昇腾超节点通过统一内存编址和高速互联，把原本复杂的异构通信进一步抽象化，降低了大规模训练的系统复杂度。

AIGCode能做到65%的MFU，背后一个重要支撑就在这里。

开源降低了底层开发门槛，同构架构减少了迁移复杂度，而超节点则进一步解决了大规模扩展的问题。

它把通信与计算之间的并行掩盖做得更深，让流水线尽可能保持满载运行，减少不同设备之间的等待和空耗。

最终，在千卡级集群场景下，整体负载率被拉到很高，用相对有限的算力，完成了更多有效计算。

另一边，中科大团队则基于鲲鹏研发了面向高性能计算的新型LU求解器。

LU分解是最基础的矩阵操作，所有涉及矩阵的科学计算场景都离不开它，优化LU分解就是在底层优化所有科学计算问题。

通过算法与硬件协同设计，把原本不规则的计算重构为规则稠密计算，优化后求解器相比传统方法实现平均40多倍加速，部分场景接近200倍。

65%、40倍、200倍。

几个看似分散的数据背后，其实对应的是同一件事：鲲鹏昇腾正在从“能跑”走向“好用”，生产级能力开始成型。

生产级信任

比性能更难跨过去的，其实是信任。

这次，一家头部股份制银行已经把AI直接推进了核心风控流程。大模型与小模型混合架构，开始介入资金流转和风险决策。

现场公布的数据也很硬：

首Token响应500毫秒、日均260亿Token、可用性99.999%、全年故障时间不超过1分钟，四项金融级指标全部达标。

但比性能指标更重要的是，他们开始愿意把核心业务真正放上去了。

而背后的关键变化之一，是CANN开源之后，整个系统终于不再是黑盒。

开发者不再只能“提需求、等适配”，而是可以真正参与到底层能力建设里。甚至连金融行业这样的传统非算子开发者，也开始向社区贡献特性。

郑老师在现场提到一句很关键的话：

开源之后，小问题我们自己随时能修，大问题可以和社区一起讨论。对整个方案更有把握，而不是在用一个黑盒子。

对于很多企业来说，性能从来不是唯一门槛。

真正决定他们敢不敢上生产环境的，是系统是否可见、可控、可维护。

打造开源开放的开发者生态

开发者的这些体感变化不是凭空而来的，背后是华为在开源开放上的一次关键选择。

去年8月，CANN启动全面开源；12月底，编译器、运行时等核心代码全量上线。

过去，开发者遇到问题，很多时候只能提工单、等版本更新。

而开源之后，运行时、算子编译等核心模块逐步解耦，开发者开始能真正参与到底层迭代里。

AIGCode从“排队三个月”到“自己动手解决”，背后的变化就在这里。

股份制银行这类非典型算力开发者愿意参与的原因，也在这里。

更关键的是，CANN开始逐步兼容主流AI生态。70余款主流大模型做到发布即适配，开发者不用改变原有开发习惯，就能直接调用昇腾的硬件能力。

这正如会上石侃谈到的，向上，兼容主流计算框架；向下，屏蔽硬件的复杂度和差异性。

而这种兼容的背后，是CANN在底层做了大量重构——

提供丰富的算子库、敏捷的开发工具链，以及全方位的开发者支持，大幅降低了算力使用门槛。

当然，生态不能只靠一方使劲。

开发者每一次正向反馈、每一个优化结果、每一个创新应用，都能通过昇腾和华为的生态快速走向产业界，形成技术、商业、生态的完整闭环。

还有个有趣的细节是，Agent也在降低生态的门槛，陈秋武提到：

过去很多重复性的适配工作，现在已经开始被Agent自动完成。生成代码、给出示例、自动搭建环境，很多过去需要啃文档的流程，被压缩到了半小时以内。

工具链在变化，开发方式本身也在变化。

飞轮转起来了

说到底，比性能和适配更重要的变化，可能是生态方向开始变了。

在鲲鹏昇腾社区里，开发者不再只是“被动适配”，而是开始主动贡献。

圆桌上，某头部股份制银行分享其已经向多个社区累计贡献上百个特性，其中仅向vLLM-Ascend就贡献了34项优化，而且不限于金融场景，全行业都能复用。

作为较早投入昇腾生态的创业团队，AIGCode则从2024年起便持续参与社区共建，并贡献了不少核心代码。

一家十几人的创业公司，愿意长期往别人的生态里投入研发资源，背后的逻辑其实很简单：

他们开始相信，这条路会成为主流，而这些贡献，又反过来加速了整个生态闭环。

硬件托住模型，模型落进产品，产品再反哺生态。

AIGCode在昇腾上做出65%的预训练效率后，很快推出了自己的智能编程工具，用户只需要输入提示词，15分钟就能生成一套完整系统。

清华则联合其他高校和科研单位在鲲鹏上跑出了戈登贝尔级别的科研成果。

这条闭环，已经不局限于来分享的几个明星团队身上。

今年2月，智谱GLM-5开源，昇腾完成Day 0适配；4月，DeepSeek V4发布，不仅是Day 0适配，更是更深入的芯模协同。

截至目前，鲲鹏开发者已经超过415万，昇腾开发者超过410万，openEuler装机量超过1600万套。

数字当然重要，但比数字更值得关注的，是生态开始出现“自增长”。

当创业公司开始主动贡献代码，当银行愿意把核心风控放上去，当高校开始把关键科研项目跑在上面，飞轮就已经不再只靠华为一家推动了。

当被问及用昇腾一年多最大的感受时，陈秋武提到：

参与进来的，已经不只是科技公司了。

高校、金融、AI大模型行业，以及越来越多不同领域的团队，都开始进入这个生态，从用户变成生态贡献者。这些“非典型”开发者的加入是国产算力走向“易用好用”最直观的信号。

而中科大的陈俊仕，则给了现场开发者一句非常直接的建议：

赶紧用。

可以说，从“能跑”到“有人长期建设”，从“厂商推动”到“生态自增长”，华为算力生态，正在进入新的阶段——

一个成熟的国产算力生态正在成型。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4还能更省！新工具缓存命中率高达99.82%，2折稳定到手

1小时前

DeepSeek 融资后，大模型领域会有什么新格局？

1小时前