DeepSeek Token价低至6元/百万Tokens，凭什么做到全球最低-工信会

> 自媒体 > （AI）人工智能 > DeepSeek Token价低至6元/百万Tokens，凭什么做到全球最低

DeepSeek Token价低至6元/百万Tokens，凭什么做到全球最低

来源：AI智识局

2026-06-10 11:52:11

管理

2026年5月，当亚马逊、微软等国际巨头因GPU和HBM涨价纷纷上调API定价时，DeepSeek突然官宣：V4-Pro永久降价至原价的25%，输出成本仅6元/百万Tokens。这个价格直接击穿了行业地板——仅为智谱GLM-5.1的1/5、Claude Sonnet的1/4，甚至比GPT-5.5低了近100倍。

全球开发者都懵了：它怎么做到的？

不是靠堆料，而是靠“偷工减料”的架构革命

大模型成本的核心，在于每次生成一个Token（文本的最小单位）都要调动全部神经网络。而DeepSeek的策略很简单：只让必要的部分干活。

1.6万亿总参数的V4-Pro，每次推理只激活490亿参数。这相当于一家公司有1.6万名员工，但开项目会时只叫最相关的490人参加，剩下的人该干嘛干嘛。这就是动态MoE（混合专家）架构——把模型拆成无数个“专家”，请求来了，路由系统瞬间判断该叫谁。

在此基础上，V4还搞了一套混合注意力机制（CSA HCA），让模型在处理百万Token级别的超长文本时，推理计算量仅为上一代的27%，KV缓存占用更是降到10%。不堆算力硬扛，而是用创新把算力消耗打下来。

用国产芯，跑出国际水平的效率

除了算法，硬件成本是第二道防线。DeepSeek V4是首个同时跑在英伟达和华为昇腾平台上的开源旗舰模型。这意味着它不再被单一供应商卡脖子。

以华为昇腾910B为例，其推理性能是英伟达H20的3倍，硬件采购成本比A100低25%-40%。深圳万卡级国产集群的日均故障率仅0.3‰，稳定性优于国际主流水平。

更重要的是，当企业从“外购算力”转向“自建国产算力集群”，五年周期内综合投入可降低40%左右。加上甘肃庆阳等西部绿电直供项目带来的电价优势（每度电便宜0.2-0.3元），万P规模的数据中心一年能省下3000万到5000万元电费。

“蒸馏”魔法与政策东风

训练成本同样被极致压缩。DeepSeek V3训练仅花费557万美元，是同级Llama 3的1/18。秘密武器是数据蒸馏——用一个强大但昂贵的“教师模型”教出一个轻量“学生模型”，把大模型的核心能力浓缩到更小的模型里。

深圳的“训力券”政策也功不可没：初创企业租用国产算力可享受60%补贴，单主体年度最高1000万元。这意味着DeepSeek在参与国际价格战时，背后有国家政策提供的“弹药”。

为什么这个优势别人学不来？

三个因素缺一不可：架构创新打底、国产硬件撑腰、政策补贴托底。这不是单纯靠供应链就能复制的组合拳。DeepSeek证明了**“花更少的钱，做更好的模型”不再是悖论——它已经成了现实中正在发生的事。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

AI又用得起了？DeepSeek 大幅降价后，网友：豆包会不会也降价？

3天前

DeepSeek 50组提示词模板｜不用改、直接复制，新手也能跑出好结果

3天前