> 自媒体 > (AI)人工智能 > DeepSeek V4 的另一层意义:八款国产芯片,Day0 上车
DeepSeek V4 的另一层意义:八款国产芯片,Day0 上车
来源:比特纪事
2026-06-10 11:28:32
166
管理

比特纪事 | 第 024 篇 · 本文 1800 字,读完约 5 分钟

4 月 24 日两条新闻同一天走出。第二条比第一条重要——前沿大模型第一次在国产芯片上 Day0 落地,6 月 5 日昇腾 910C 跑完了 1.6 万亿参数的全参后训练。

4 月 24 日,两条新闻

2026 年 4 月 24 日,两条新闻同一天走出。

第一条:DeepSeek 开源 V4-Pro 与 V4-Flash。Pro 模型 1.6 万亿参数,Flash 模型 284B 总参 / 13B 激活,原生支持 100 万 token 上下文。

第二条:华为昇腾、寒武纪完成 Day0 适配。一天后,海光、沐曦、摩尔线程、平头哥真武、英伟达接续 Day1 加入。八款芯片,国产占七款。

第二条新闻,比第一条重要。

DeepSeek 自己在技术报告里写得很诚实:「V4 落后前沿闭源约 3-6 个月。」彭博 4/25 引用了这句话。落后的不是模型本身,是它能跑在什么芯片上。这一次,前沿大模型第一次在国产芯片上 Day0 落地。

DeepSeek V4 八款芯片 Day0/Day1 适配时间线

用 27% 的 FLOPs 跑同样的活

V4 真正的工程亮点,是注意力架构。

之前的 Transformer,注意力是均匀的——每一层干同一件事。V4 把注意力拆成两条分支,层间交错:

· CSA(压缩稀疏注意力):把 m 个 token 压成一个,再做稀疏选择· HCA(重度压缩注意力):更激进的压缩比

层与层之间,CSA 和 HCA 交替工作。看起来抽象,效果很硬:FLOPs 降至 V3.2 的 27%,KV cache 降至 10%。同样的活,算力消耗砍掉 73%,缓存砍掉 90%。

这是中国大模型这两年的共同底色:用算法压缩对冲算力短板。

美国路线是另一种打法——堆 GPU、烧 Capex。微软单季 Capex $300 亿往上,Meta、Google 同样量级。中国路线没法照搬,只能在「单位算力做更多事」上死磕。

V4 把这条路线推到了一个新高度:有效算力效率已经接近闭源前沿。差的不是聪明,是芯片库存。

八款芯片,七款国产

智源研究院的 FlagOS 项目是这件事的幕后枢纽。

FlagOS 用 C Wrapper 技术,让国产芯片可以直接跑标准 Transformers 框架的代码。开发者无需重写,模型也无需重训。这是适配,不是迁就。

落到芯片厂商:

· 华为昇腾:910C / A2 / A3 / 950 全系适配,V4-Flash V4-Pro 全覆盖· 寒武纪:思元 590 系列 Day0 完成· 海光、沐曦、摩尔线程、平头哥真武:Day1 全部就位· 英伟达:也在名单里,但只是「之一」

七款国产芯片同时支撑前沿大模型 Day0 落地,是过去两年没出现过的画面。

更关键的细节藏在 6 月 5 日的深圳公告里。

DeepSeek FlagOS 国产芯片三方协同

6 月 5 日的那条小公告

6 月 5 日,深圳河套学院 AI 训练平台发了一条不长的通报:

「依托昇腾 910C 国产 AI 算力集群,完成 1.6 万亿参数大模型 DeepSeek-V4-Pro 全参数后训练。」

读懂这句话需要拆三层:

第一层,1.6 万亿参数。这是 V4-Pro 的完整规模,不是缩水版。

第二层,全参数后训练,不是推理,不是微调,是后训练。后训练涉及大规模反向传播、优化器更新、显存压力指数级放大。这是真正的训练任务。

第三层,昇腾 910C 集群。完全脱离英伟达,跑完了万亿模型后训练。

把三层叠加:这是国产芯片第一次完整撑起前沿大模型的训练流程。不是推理 demo,不是单卡跑通,是训练闭环。

DeepSeek 在公告里也坦承:「Pro 当前服务吞吐受限于高端算力,下半年昇腾 950 超节点批量上市后,Pro 价格将大幅下调。」翻译过来:950 一上市,国产推理也补齐。

和昨天那篇文章对照

昨天写苹果的稿件里,有一组关系:苹果付 Google $10 亿,三星付 Google,Meta 自研开源 Llama。四家美国巨头,三家在向 Google 付钱。

把视野挪到中国,这边的关系是另一种:

维度

美国

中国

模型

闭源 GPT-5 / Claude / Gemini

开源 DeepSeek V4 / Qwen / GLM

算力

NVIDIA H200 / B200

华为昇腾 / 寒武纪 / 摩尔线程

关系

苹果付 Google $10 亿

DeepSeek FlagOS 8 款芯片

路线

堆 GPU 烧 Capex

算法压缩 国产芯片协同

核心赌注

模型能力领先 6 个月

全栈自主 开源生态

美国是商业反向付费换稳定,中国是开源协同换可用。两条路线都在解决同一个问题——怎么把模型铺到几十亿设备上——但解法完全相反。

中美 AI 路线对照

写在这一天

DeepSeek V4 不是一个新模型那么简单。

它落后前沿闭源 3-6 个月,这是 DeepSeek 自己说的。但它做到了一件前沿闭源做不到的事——在国产芯片上 Day0 跑起来,并且能完成万亿参数训练闭环。

这不是模型的胜利,是模型 框架 芯片三方协同的胜利。FlagOS 接住了适配层,昇腾 910C 接住了训练,DeepSeek 把架构压缩到极致。三方各自做对了一件事,叠加起来才是这次的全栈闭环。

算力卡脖子的叙事不会消失。但「算力依赖度」会被重估。

下一道账,是 2027-2028 年。届时国产芯片要回答:能不能撑起前沿大模型从零开始训练?能不能让 DeepSeek 不再「落后 3-6 个月」?能不能让中国 AI 真正不依赖单一闭源链路?

如果答案是肯定的,4 月 24 日这天的两条新闻,会被写进未来的 AI 史。

4 月 24 日只是序章,6 月 5 日只是注脚。真正的故事,2027 年才开始。

参考信源

1. DeepSeek-V4 技术报告(2026-04-24 开源发布)2. Bloomberg 2026-04-25「DeepSeek V4 Trails Frontier Closed Models By 3-6 Months」3. 智源研究院 FlagOS 公告(2026-04-24/25)4. 深圳河套学院 AI 训练平台 2026-06-05 通报5. 华为昇腾 / 寒武纪 / 海光 / 沐曦 / 摩尔线程 / 平头哥官方适配公告6. 百度千帆平台 V4-Flash Day0 上线公告7. 36氪 / 量子位 / 机器之心 V4 架构解读8. 微软、Meta、Google 2026-Q1 财报 Capex 数据

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
醉看夕阳(普通会员)
文章
2142
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体112849

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索