DeepSeek 的 10 万亿美元大战略-工信会

> 自媒体 > （AI）人工智能 > DeepSeek 的 10 万亿美元大战略

DeepSeek 的 10 万亿美元大战略

来源：振个喵

2026-06-04 15:51:25

管理

作者：GDP (@bookwormengr) 标题：DeepSeek's 10 trillion USD grand strategy

译者：宝玉

你有没有想过，DeepSeek 到底打算怎么赚钱，而且是赚大钱？

他们没有像智谱（GLM）、月之暗面（MoonShot）和 MiniMax 那样推出有竞争力的编程订阅计划。他们没有多模态、语音或视频模型。时至今日，他们甚至连一个 Harness 都没有（虽然最近听说他们开始招人做了）。而且，DeepSeek 还长期致力于开源，乐此不疲地分享自己的“独家秘方”。这难道是疯了吗？还是纯粹在烧钱？那些正准备给他们投资 100 亿美元的投资人们，难道是在把钱往水里扔吗？

不，在我看来，恰恰相反！！！

在这里，我想聊聊我对他们至今所作所为的观察，以及他们似乎正在践行的战略。DeepSeek 创始人梁文锋的眼光显然盯着一个大得多的终极奖杯——他们不仅自己能冲击 1 万亿美元的市值，还能顺便帮中国催生出一个高达 10 万亿美元的产业巨兽！

重新审视 DeepSeek 的“英雄之旅”

DeepSeek 总是逆风而行，他们不屑于去卷那种“比别人好一点点”的微调模型，也不急着去卖当下的应用（比如各种编程套餐）。我在 2025 年 1 月 27 日发过一条疯传的推文，谈到了我所看到的景象，而现在的剧情正变得越来越精彩。

当大家都在死磕稠密模型（Dense Models，所有参数都参与计算的传统大模型结构）时，DeepSeek 却迎难而上，选择了极难训练的混合专家模型（MoE, Mixture of Experts）。他们从“第一性原理”（First Principles）出发，发明了全新的 GRPO 算法，取代了在强化学习（RL, Reinforcement Learning）中虽然占据统治地位、但实现成本极高的 PPO 算法。他们摸索出了基于验证奖励的强化学习（RLVR, Reinforcement Learning from Verified Rewards），并将其作为提升模型推理能力的杀手锏。他们通过“多 Token 预测”（MTP, Multi-Token Prediction）提出了一种绝妙的投机解码（Speculative Decoding，一种通过预判后续单词来加速大模型生成速度的技术）策略，同时还让训练信号变得更加密集。他们完美打造了“零气泡”（Zero-Bubble）流水线并行技术，把有限的 GPU 资源压榨到了极致。他们开源了专家负载均衡器（Expert Load Balancer），让所有人都能轻松部署混合专家模型。特别是通过“宽专家并行”（Wide Expert Parallel）策略，模型可以在大批次下运行，使得服务成本大幅降低。他们发明了 MLA、DSA、CSA 和 HCA 等一系列魔改注意力机制的技术，极大地缩减了 KV 缓存（KV Cache，大模型推理时用于存储历史对话记忆的显存空间）的需求，让计算需求在面对无限拉长的上下文时几乎保持恒定。他们发明了 Engram（印迹模块），实现了用内存换算力的神奇操作。他们发明了 mHC（修正超连接），解决了模型体量暴增时的训练稳定性难题。这个创新清单还能一直列下去……

在英雄之旅这个最经典的叙事结构里，主角一开始并不知道自己的终极使命是什么。他是在一路上摸爬滚打，逐渐领悟了伟大的天命，然后排除万难去完成它。在这个过程中，他会遇到无数的冷嘲热讽，但他选择无视；他会遇到不怀好意的对手；他本身也有致命的弱点或短板——但他最终战胜了自我，达成了使命。他直面那些看似无法逾越的难关，却总能巧妙地结盟、精明地整合宝贵的资源。这就是为什么观众会不自觉地为英雄摇旗呐喊。这也是为什么 DeepSeek 在赢得全球无数粉丝狂热追捧和尊敬的同时，也招来了不少争议。

接下来我将为你详细拆解，DeepSeek 在这条路上已经走得足够远，并且已经窥见了他们的终极宿命：他们的格局根本不是卖什么编程订阅，而是去撬动一个价值 10 万亿美元的中国 AI 硬件生态圈，并以此顺理成章地让自己斩获 1 万亿美元的市值。在这个过程中，他们甚至还会顺手帮一把西方硬件生态中的一众新玩家。

欢迎大家探讨与指正。

先来算一笔好玩的 KV 缓存账：

来看看知名半导体分析机构@SemiAnalysis_发布的这条非常及时的推文：

疯狂背后的精密章法：

能够在完全不牺牲模型质量的前提下，把 KV 缓存压缩得如此之小，正是他们敢把长时缓存（Long-held Cache）价格压到白菜价的底气所在——其价格甚至不到 Anthropic 旗下 Claude Sonnet 4.6 缓存命中价格的 3%，而且他们还能帮你免费保留好几个小时！

对于长程任务来说，由于缓存体量极小，将其“转存”（Offloading）到固态硬盘（SSD）并在需要时重新加载，就变得极为划算。这就大大降低了对 HBM 的依赖。要知道，HBM 目前全球严重短缺，而且从中国 AI 硬件产业的角度来看，这也是制造难度极高的核心痛点。更绝的是，DeepSeek 还开发了一套能从 SSD 中以极高速度重新加载 KV 缓存的技术，具体细节都在他们的论文里：

https://arxiv.org/pdf/2602.21548

谁是这场“KV 缓存压缩战”的直接受益者？

谁在大量供应 SSD？别忘了长江存储（YMTC）正在崛起为全球 3D NAND 闪存巨头。闪存技术（NAND）让 DeepSeek 能够直接读取缓存，从而避免了每次都重新计算 KV 的巨大算力浪费。反过来，DeepSeek 正在为 NAND 闪存和固态硬盘创造一个无比庞大的新市场——这不仅让长江存储受益，也让整个产业链所有玩家跟着大赚。

然而，格局绝不仅仅局限于 NAND 和 SSD：

低功耗内存（LPDDR）同样蕴藏着巨大的潜力，可以用作存放模型权重（Weights）的“大后方”，并在需要时源源不断地“流式传输”到 HBM 中，从而进一步减轻 HBM 的容量压力。你可以参考这篇博客：https://www.lmsys.org/blog/2025-09-25-gb200-part-2/ 下面我用一张图来解释这套方案是如何运作的：

虽然 DeepSeek 并没有专门针对这一方案做特殊开发，但他们那拥有庞大专家数量、并且支持 4 位（4-bit）权重的混合专家模型架构，完美契合了这套方案，使得其实施起来易如反掌。

这种取舍简直太值了：由于缺乏极紫外光刻机（EUV），无法在单个芯粒（Chiplet）上做到同等的晶体管密度，中国的 GPU 和 ASIC 在纯粹的原始浮点运算能力（FLOPs）上，注定会长期落后于西方顶尖显卡。同时，国内在先进封装技术上也处于追赶状态。因此，如果能利用国内产能充足、成本低廉的 NAND 和 LPDDR 内存来弥补算力的劣势，这种“扬长避短”的打法简直是绝配。

盘点 DeepSeek 的一盘大棋：

纵观这些令人眼花缭乱的创新和他们做出的种种抉择（至今不做多模态、不做语音模型，至于视频生成？那是什么东西？），DeepSeek 的野心显然不是眼前那区区几亿美元的蝇头小利。他们正在极有耐心地下一盘 10 万亿美元的大棋，目的是亲手扶持起一套独立于西方之外的“备选硬件生态”。

这不仅让中国的存储芯片厂商在全球 AI 硬件舞台上跃升为主力军，更从根本上降低了大模型训练和推理的资源门槛。当运行 AI 模型的成本降下来后，原本性能稍逊的国产 GPU/ASIC 芯片以及网络交换芯片也将全部变成“够用、好用”的切实选项。而且，这些开源创新也将反哺西方的开源社区，并给西方那些试图挑战英伟达的芯片初创企业带来一线生机。

所有的蛛丝马迹都对上了。让我们来逐一细数他们抛出的那些震撼行业的创新：

在 DeepSeek V2 中引入混合专家模型（MoE）和 MLA：MoE 让训练一个极度聪明的模型减少了 40% 到 50% 的算力消耗；而多头潜在注意力机制（MLA, Multi-head Latent Attention）更是把 KV 缓存直接砍掉了 90%，使得将缓存转存到 SSD 变得极为高效。这些理念最早在他们 2024 年 5 月的论文（https://arxiv.org/pdf/2405.04434）中提出。正是凭借这些绝活，他们后来才能仅仅用 2048 张被阉割过的 H800 GPU，就硬生生训练出了媲美顶级闭源模型的 DeepSeek V3。

mHC（修正超连接）：在 2025 年 12 月的论文（https://arxiv.org/pdf/2512.24880）中首次亮相。mHC 是 DeepSeek 在宏观架构上的一大创新，它彻底颠覆了大模型各层之间传统的信号传输方式。过去大家都在用自 ResNet 时代流传下来的标准残差连接（$x F(x)$），而 mHC 则把这条残差流扩展成了多条并行的“信息高速公路”，并允许模型自主学习如何进行混合。最为关键的是，它通过数学手段（将混合矩阵通过 Sinkhorn-Knopp 投影约束在 Birkhoff 多胞形上）强制让这些混合矩阵满足双随机性，从而在数学上完美确保了信号强度在穿过任意深度的网络层时都不会衰减。

这彻底解决了此前困扰无约束超连接（Hyper-Connections，最早由字节跳动发明）的灾难性不稳定难题——此前在 270 亿（27B）参数规模下，信号放大系数会疯狂飙升到 3000 倍，导致整个训练彻底崩盘。而它的计算成本却微乎其微：由于它完全没有改变注意力层或前馈网络（FFN, Feed-Forward Network）层的原始浮点运算量，仅仅改变了输出在各层之间的路由方式，因此它只增加了区区 6.7% 的实际训练时间开销。然而它带来的性能提升却极为震撼：在同等模型大小和几乎完全相同的算力预算下，27B 规模的模型在 mHC 的加持下，在复杂的 BIG-Bench Hard 推理测试中暴涨了 7.2 分，DROP 评测提升 3.2 分，GSM8K 数学测试提升 2.8 分，MMLU 综合学科知识提升 1.4 分。

简而言之，mHC 通过给网络赋予一套更丰富、更有表现力的跨层信息路由拓扑结构，在几乎不需要额外多花一丁点算力的情况下，让单位参数发挥出了显著更高的“智商”。

论文（https://arxiv.org/pdf/2601.07372）于 2026 年第一季度推出，正如前面所说，它在某种意义上实现了“用内存（LPDDR）换算力”。下面的详细图表展示了在总体参数预算完全一致的情况下，Engram 带来的巨大性能跃升。

我大胆预测，DeepSeek 目前正在与国内一众存储、ASIC 算力芯片、CPU 以及网络协议栈厂商签署类似的对赌与利益绑定协议。通过深度联合调优，DeepSeek 将帮助这些本土硬件在运行全球最顶尖的 AI 核心工作负载时，真正做到平替、甚至超越西方硬件。

眼下，西方（包括其东亚盟友）所有 AI 概念股的总市值早已突破了 10 万亿美元。通过这种“用技术换股权、用生态扶持分蛋糕”的精妙商业模式，DeepSeek 不仅能在中国复制出一个同样体量惊人的超级硬件产业，还能在其中切下最肥美的一块蛋糕，进而将自己送入 1 万亿美元市值的超级俱乐部。

这不仅能让他们赚到比卖什么订阅软件多得多的真金白银，还能顺便实现他们口中“让通用人工智能惠及每一个人”的宏伟愿景。梁文锋作为传奇量化大师詹姆斯·西蒙斯（Jim Simons）的铁杆粉丝，绝对是一位顶级聪明的资本家，他绝不可能漏掉这盘大棋！

只要你回过头把 DeepSeek 至今为止所有的反常举动串联起来，这就是唯一能完美解释一切的底层逻辑……

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

不会写代码的“鲸鱼哥”，被 DeepSeek 改写人生 | 专访 Hunter Bown

1小时前

DeepSeek 虚拟硬件层

1小时前