DeepSeek V4 的另一层意义：八款国产芯片，Day0 上车-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4 的另一层意义：八款国产芯片，Day0 上车

DeepSeek V4 的另一层意义：八款国产芯片，Day0 上车

来源：比特纪事

2026-06-10 11:28:32

166

管理

比特纪事｜第 024 篇 · 本文 1800 字，读完约 5 分钟

4 月 24 日两条新闻同一天走出。第二条比第一条重要——前沿大模型第一次在国产芯片上 Day0 落地，6 月 5 日昇腾 910C 跑完了 1.6 万亿参数的全参后训练。

4 月 24 日，两条新闻

2026 年 4 月 24 日，两条新闻同一天走出。

第一条：DeepSeek 开源 V4-Pro 与 V4-Flash。Pro 模型 1.6 万亿参数，Flash 模型 284B 总参 / 13B 激活，原生支持 100 万 token 上下文。

第二条：华为昇腾、寒武纪完成 Day0 适配。一天后，海光、沐曦、摩尔线程、平头哥真武、英伟达接续 Day1 加入。八款芯片，国产占七款。

第二条新闻，比第一条重要。

DeepSeek 自己在技术报告里写得很诚实：「V4 落后前沿闭源约 3-6 个月。」彭博 4/25 引用了这句话。落后的不是模型本身，是它能跑在什么芯片上。这一次，前沿大模型第一次在国产芯片上 Day0 落地。

DeepSeek V4 八款芯片 Day0/Day1 适配时间线

用 27% 的 FLOPs 跑同样的活

V4 真正的工程亮点，是注意力架构。

之前的 Transformer，注意力是均匀的——每一层干同一件事。V4 把注意力拆成两条分支，层间交错：

· CSA（压缩稀疏注意力）：把 m 个 token 压成一个，再做稀疏选择· HCA（重度压缩注意力）：更激进的压缩比

层与层之间，CSA 和 HCA 交替工作。看起来抽象，效果很硬：FLOPs 降至 V3.2 的 27%，KV cache 降至 10%。同样的活，算力消耗砍掉 73%，缓存砍掉 90%。

这是中国大模型这两年的共同底色：用算法压缩对冲算力短板。

美国路线是另一种打法——堆 GPU、烧 Capex。微软单季 Capex $300 亿往上，Meta、Google 同样量级。中国路线没法照搬，只能在「单位算力做更多事」上死磕。

V4 把这条路线推到了一个新高度：有效算力效率已经接近闭源前沿。差的不是聪明，是芯片库存。

八款芯片，七款国产

智源研究院的 FlagOS 项目是这件事的幕后枢纽。

FlagOS 用 C Wrapper 技术，让国产芯片可以直接跑标准 Transformers 框架的代码。开发者无需重写，模型也无需重训。这是适配，不是迁就。

落到芯片厂商：

· 华为昇腾：910C / A2 / A3 / 950 全系适配，V4-Flash V4-Pro 全覆盖· 寒武纪：思元 590 系列 Day0 完成· 海光、沐曦、摩尔线程、平头哥真武：Day1 全部就位· 英伟达：也在名单里，但只是「之一」

七款国产芯片同时支撑前沿大模型 Day0 落地，是过去两年没出现过的画面。

更关键的细节藏在 6 月 5 日的深圳公告里。

DeepSeek FlagOS 国产芯片三方协同

6 月 5 日的那条小公告

6 月 5 日，深圳河套学院 AI 训练平台发了一条不长的通报：

「依托昇腾 910C 国产 AI 算力集群，完成 1.6 万亿参数大模型 DeepSeek-V4-Pro 全参数后训练。」

读懂这句话需要拆三层：

第一层，1.6 万亿参数。这是 V4-Pro 的完整规模，不是缩水版。

第二层，全参数后训练，不是推理，不是微调，是后训练。后训练涉及大规模反向传播、优化器更新、显存压力指数级放大。这是真正的训练任务。

第三层，昇腾 910C 集群。完全脱离英伟达，跑完了万亿模型后训练。

把三层叠加：这是国产芯片第一次完整撑起前沿大模型的训练流程。不是推理 demo，不是单卡跑通，是训练闭环。

DeepSeek 在公告里也坦承：「Pro 当前服务吞吐受限于高端算力，下半年昇腾 950 超节点批量上市后，Pro 价格将大幅下调。」翻译过来：950 一上市，国产推理也补齐。

和昨天那篇文章对照

昨天写苹果的稿件里，有一组关系：苹果付 Google $10 亿，三星付 Google，Meta 自研开源 Llama。四家美国巨头，三家在向 Google 付钱。

把视野挪到中国，这边的关系是另一种：

维度

美国

中国

模型

闭源 GPT-5 / Claude / Gemini

开源 DeepSeek V4 / Qwen / GLM

算力

NVIDIA H200 / B200

华为昇腾 / 寒武纪 / 摩尔线程

关系

苹果付 Google $10 亿

DeepSeek FlagOS 8 款芯片

路线

堆 GPU 烧 Capex

算法压缩国产芯片协同

核心赌注

模型能力领先 6 个月

全栈自主开源生态

美国是商业反向付费换稳定，中国是开源协同换可用。两条路线都在解决同一个问题——怎么把模型铺到几十亿设备上——但解法完全相反。

中美 AI 路线对照

写在这一天

DeepSeek V4 不是一个新模型那么简单。

它落后前沿闭源 3-6 个月，这是 DeepSeek 自己说的。但它做到了一件前沿闭源做不到的事——在国产芯片上 Day0 跑起来，并且能完成万亿参数训练闭环。

这不是模型的胜利，是模型框架芯片三方协同的胜利。FlagOS 接住了适配层，昇腾 910C 接住了训练，DeepSeek 把架构压缩到极致。三方各自做对了一件事，叠加起来才是这次的全栈闭环。

算力卡脖子的叙事不会消失。但「算力依赖度」会被重估。

下一道账，是 2027-2028 年。届时国产芯片要回答：能不能撑起前沿大模型从零开始训练？能不能让 DeepSeek 不再「落后 3-6 个月」？能不能让中国 AI 真正不依赖单一闭源链路？

如果答案是肯定的，4 月 24 日这天的两条新闻，会被写进未来的 AI 史。

4 月 24 日只是序章，6 月 5 日只是注脚。真正的故事，2027 年才开始。

参考信源

1. DeepSeek-V4 技术报告（2026-04-24 开源发布）2. Bloomberg 2026-04-25「DeepSeek V4 Trails Frontier Closed Models By 3-6 Months」3. 智源研究院 FlagOS 公告（2026-04-24/25）4. 深圳河套学院 AI 训练平台 2026-06-05 通报5. 华为昇腾 / 寒武纪 / 海光 / 沐曦 / 摩尔线程 / 平头哥官方适配公告6. 百度千帆平台 V4-Flash Day0 上线公告7. 36氪 / 量子位 / 机器之心 V4 架构解读8. 微软、Meta、Google 2026-Q1 财报 Capex 数据

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

Deepseek融资500亿，梁文锋自掏200亿，创业者变了！

1小时前

DeepSeek V4为昇腾定制训练性能翻倍，如何打消国产AI芯片生态顾虑

1小时前