DeepSeek-V4 的发布不仅是一次技术迭代,更是中国 AI 产业生态的重要转折点。从华为昇腾的原生适配到腾讯阿里的资本角逐,这款万亿参数模型正在重构国产算力的竞争格局。本文将深入拆解其技术突破背后的产业逻辑,揭示开源模型公司面临的商业化困境与战略选择。

DeepSeek-V4 最重要的参数,可能不是 1.6T。是昇腾。
这不是说模型能力不重要。V4-Pro 采用 1.6T 总参数、49B 激活的 MoE 架构,V4-Flash 是 284B 总参数、13B 激活。两者都支持百万 token 上下文,模型卡显示采用 CSA HCA 混合注意力机制。V4 的技术报告里还有 mHC 流形约束超连接、DSA 稀疏注意力、Muon 优化器、FP4 量化感知训练、On-Disk KV Cache、确定性 kernel 库、DSec sandbox 基础设施。
这些名词堆在一起,很容易变成技术自嗨。但在 2026 年 4 月的产业语境里,它们都服务于另一个更硬的事实:V4 要在国产算力上跑起来、跑稳定、跑便宜。
DeepSeek-V3 的物质基础仍然是 Nvidia H800。它在被限制后的芯片条件下,通过 MoE、MLA、FP8 和大量底层优化把效率压到极致。开发者在 V3 代码里发现 PTX 底层优化痕迹,这说明 DeepSeek 很早就在绕开高层框架的舒适区,直接碰 GPU 执行层。PTX 是 Nvidia GPU 的底层中间表示。一个团队愿意碰到这一层,说明它不是只会调框架参数的模型团队,而是有能力对算力基础设施做外科手术的工程团队。
这种能力到 V4 变得关键。因为美国的芯片封锁已经从“不给最强芯片”发展到“给你算总账”。
2025 年 1 月 13 日,拜登政府发布 AI Diffusion Rule,把全球按层级纳入 AI 芯片流动管制。Reuters 报道中提到,这套规则试图限制先进 AI 芯片在全球的扩散,中国被放在严格受限的位置。[12] 后续关于 TPP 总处理性能的限制讨论,本质上是把算力变成一种可核算、可封锁、可分配的战略资源。这套逻辑非常美国。它不一定要完全阻止你发展,它只要确保你慢一代。
H20 的拉扯就是一个小窗口。2025 年 2 月,中国企业因为 DeepSeek 热潮增加 H20 订单。4 月,美国限制 H20 出口,Nvidia 计提约 55 亿美元相关费用。5 月,Nvidia 准备降规版。7 月,黄仁勋又表示恢复供应。
到 2026 年 4 月,美国商务部长仍确认 H200 尚未对华销售。这不是稳定供应链,这是把一家公司的训练计划绑在华盛顿的政策摆钟上。对于一家前沿模型公司来说,这种不确定性比贵更危险。贵可以融资,不确定会毁掉路线图。
所以 DeepSeek 转向华为昇腾,不只是爱国叙事,也不是发布会上的情绪价值。它是一家模型公司面对供应链风险时的理性选择。
2026 年 2 月,Reuters 报道 DeepSeek 不再像行业惯例那样向美国芯片制造商提前展示即将发布的旗舰模型,而是更早向国内芯片供应商开放。[13] 4 月,Reuters 又报道 DeepSeek-V4 将运行在华为芯片上,并与国内芯片厂商进行底层代码改写和测试。V4 发布同日,华为昇腾超节点将完整支持 DeepSeek-V4 的消息出现。
SCMP 对这次“首发适配”的描述很直接:华为表示 Ascend 950PR 与 950DT 对 DeepSeek-V4 实现了“day zero”适配;B 站和微信直播中,华为工程师讲解了 CANN 与 DeepSeek V4 的适配过程,并称整个 Ascend SuperNode 产品线已经“fully adapted”到 V4 的模型推理。[15] 这句话要拆开看。
“Day zero”听起来像营销,但对一个万亿参数级模型来说,它意味着模型发布当天硬件生态就能接住;“fully adapted”也不等于性能已经完美,它至少意味着软件栈、推理框架和底层算子已经打通了第一层生产路径。更有意思的是,DeepSeek 自己也承认,在昇腾 950PR 超节点下半年规模出货前,V4-Pro 会有吞吐问题,价格还会在硬件批量上市后大幅下调。[15] 这不是胜利宣言,更像一张施工进度表:方向是对的,路还在扩宽,先限流通行。
从 CUDA 到 CANN,也不是把模型文件拷贝过去就行。它需要算子重写、编译器适配、推理框架优化、通信互联调度、显存管理、长上下文性能验证。尤其是 V4 这种万亿参数、百万 token 上下文的模型,任何一个环节效率不够,都会把“国产适配”变成 PPT 适配。钛媒体转载的技术分析提到,V4 一再延期,与推理端和昇腾芯片的深度适配相关;真正的挑战不在能否运行,而在于稳定、高效、可规模化运行。[16] 这句话很关键。国产算力最怕的从来不是“跑不起来”,最怕的是“能跑,但跑得像拖拉机进高速”。
这也是为什么 Jensen Huang 会说 DeepSeek 运行在华为芯片上,对美国来说是 “horrible outcome”。TNW 对这句话的解读更直白:DeepSeek 花了数月重写核心代码,使之适配华为 CANN 框架,离开 Nvidia 花了二十年建成的 CUDA 生态;CUDA 的统治本身就是美国在芯片之外的第二层控制。[17]
Nvidia 真正害怕的,不是中国公司做出一个强模型。强模型可以被解释为偶然、蒸馏、补贴、不可持续。它害怕的是一个强模型在非 CUDA 生态里稳定运行。因为 CUDA 的护城河不只是芯片性能。它是开发者习惯、工具链、生态、调试经验、算子库、训练框架和人才市场共同构成的软垄断。只要中国模型公司继续围着 CUDA 优化,美国的芯片管制就有抓手。
V4 的技术细节,也恰好解释了为什么这场换芯手术难。百万 token 上下文的主要成本不是“模型聪不聪明”,而是每一次推理时要处理多少历史信息。传统注意力机制在长上下文里会把 KV cache 和 FLOPs 拖成灾难现场。DeepSeek-V4 在 token 维度做压缩,再叠加 DSA 稀疏注意力。技术拆解资料显示,1M 上下文下,V4-Pro 的单 token 推理 FLOPs 只要 V3.2 的 27%,KV cache 只要 V3.2 的 10%;V4-Flash 更极致,单 token FLOPs 只要 V3.2 的 10%,KV cache 只要 7%。[14] 这才是 V4 与昇腾绑定的真正含义:如果没有长上下文推理成本的结构性下降,国产算力即便能跑,也很难便宜地跑。
之前我写过一篇关于富士康转型的分析,转型的判断从来不是看你“装配了什么”,而是看你在价值链里掌握什么。
富士康从 iPhone 到 AI 服务器,组装对象换了,利润位置没变。DeepSeek 与昇腾的故事反过来:它不只是换了一个硬件对象,它在尝试改变自己在底层生态里的位置。只要模型团队继续用 CUDA 的语言思考,国产芯片就很容易变成“换皮代工”;只有当模型架构、推理框架、算子库、通信调度一起围着本土硬件特性重写,才可能从“可替代硬件”走向“可自我演化的系统”。
这也是封锁政策最尴尬的地方。它短期内确实能制造痛苦。它会提高成本、拖慢适配、打乱供应链、迫使企业走难路。但如果被封锁的一方拥有足够大的市场、足够多的工程师、足够强的需求和足够明确的替代目标,封锁就会变成产业动员。DeepSeek-V4 的意义正在这里。
它不是国产算力生态的终点,它是那把手术刀第一次切到了骨头。
结尾:便宜之后DeepSeek 这 484 天,最容易被误读成一个胜利故事。
中国团队用低成本做出强模型,打崩 Nvidia,震动硅谷,逼美国破防,带动国产芯片,最后腾讯阿里排队送钱。写成这个版本,读者会很爽,标题也会很好起。但这个版本太轻了。真正有意思的地方,恰恰在于 DeepSeek 的每一次胜利都带着反作用力。
V3 的低成本胜利,让它必须继续证明便宜可以持续;R1 的全球爆红,让它必须承担远超实验室规模的用户、舆论和地缘压力;开源的胜利,让腾讯、阿里、车企、云厂商都能把它变成自己的武器;人才的胜利,让它培养出的研究员被整个行业精准报价;国产适配的胜利,让它从模型公司变成芯片生态重组的楔子;融资的胜利,则让梁文锋终于走进他一开始刻意避开的那张桌子。
这不是理想主义的失败。恰恰相反,只有前 484 天足够理想主义,DeepSeek 才能在第 485 天拥有谈判筹码。
如果它从一开始就按普通 AI 创业公司的路线融资、做产品、讲商业化、追热点,它大概率会变成中国大模型拥挤牌桌上的另一家公司:模型做一点,应用做一点,生态讲一点,商业化试一点,什么都沾边,什么都不够硬。
梁文锋真正赌赢的,是先把技术边界推到足够远,再回来和现实谈条件。但现实不会因为你赢过一次就变温柔。557 万美元是一颗子弹。它射穿了硅谷的护城河,也射穿了 DeepSeek 自己的保护壳。子弹证明了前沿 AI 可以便宜,却没有证明一家前沿 AI 公司可以永远便宜地活着。
484 天后,DeepSeek 已经不再只是那个“低成本奇迹”。它是一个被全球开发者使用的开源底座,一个被腾讯阿里争抢的资本标的,一个被美国国会和白宫盯上的地缘政治符号,一个正在国产芯片上做换芯手术的万亿参数模型。它的处境也因此变得更像一种中国 AI 的压缩样本:理想主义要钱,开源要护城河,国产化要工程账,低成本要继续低下去。
梁文锋当年说,DeepSeek 不是为了短期盈利,而是为了推动技术边界。484 天后,技术边界确实被推动了。
只是推动它继续向前的,已经不只是技术。
参考资料
[1] Reuters, “DeepSeek sparks AI stock selloff; Nvidia posts record market-cap loss”, 2025.
[2] SemiAnalysis, “DeepSeek Debates”, 2025.
[3] 澎湃新闻,《多名核心人员流失,AGI梦想不敌商业化现实?》,2026.
[4] Reuters, “China’s DeepSeek says its hit AI model cost just $294,000 to train”, 2025.
[5] Reuters, “China’s DeepSeek is raising funds at $10 billion valuation, The Information reports”, 2026.
[6] Reuters, “Tencent, Alibaba in talks to invest in DeepSeek, The Information reports”, 2026.
[7] 泰伯网,《DeepSeek 50亿起投,最新估值高达3000亿》,2026.
[8] TechCrunch, “DeepSeek displaces ChatGPT as the App Store’s top app”, 2025.
[9] 量子位,《腾讯元宝接入DeepSeek-R1满血版》,2025.
[10] DeepSeek API Docs, model release notes, 2024-2025.
[11] Reuters, “OpenAI accuses DeepSeek of distilling US models”, 2026.
[12] Reuters, “US tightens its grip on AI chip flows across globe”, 2025.
[13] Reuters, “DeepSeek withholds latest AI model from US chipmakers including Nvidia”, 2026.
[14] 赛博禅心,《DeepSeek V4 发布,全网最细解读 &; 技术报告拆解》,人人都是产品经理,2026.
[15] South China Morning Post, “Huawei, DeepSeek strengthen China’s AI self-reliance with collaboration on V4 model”, 2026.
[16] 钛媒体,《自主还是兼容:DeepSeek V4延期背后的中国AI生态选择题》,2026.
[17] TNW, “Nvidia’s Jensen Huang warns DeepSeek running on Huawei chips would be ‘horrible outcome’ for America”, 2026.
作者:林彤川 公众号:红流AKASHIO
本文由 @红流AKASHIO 原创发布于人人都是产品经理,未经许可,禁止转载。
题图来自 Unsplash,基于 CC0 协议。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105909