> 自媒体 > (AI)人工智能 > DeepSeek V4来了,把技术报告啃了一遍,说说我的真实看法
DeepSeek V4来了,把技术报告啃了一遍,说说我的真实看法
来源:人人都是产品经理
2026-04-29 10:16:30
26
管理

DeepSeek V4的发布不仅是一次技术迭代,更是一场AI行业的降维打击。1.6T参数的MoE架构、100万token上下文的高效处理、MIT协议开源,再加上仅为竞品1/7的定价策略,这款中国AI大模型正以颠覆性的技术架构和商业逻辑重新定义行业标准。本文将从模型架构、训练方法到地缘政治影响,全面解析V4如何改写AI竞争格局。

V4这次发布了两个模型,V4-Pro和V4-Flash。

V4-Pro是旗舰,1.6T总参数,每次推理激活49B。V4-Flash是效率版,284B总参数,激活13B。两个都支持100万token上下文,都走MIT协议开源,Hugging Face上直接可以下载。

这里有个数字我觉得很多人没理解清楚,1.6T参数和49B激活到底意味着什么?

MoE架构的核心逻辑是,模型里有大量”专家”,但每次处理一个token的时候,只有其中一小部分被激活。所以V4-Pro虽然总参数量是1.6T,实际上跑起来的计算量,是按49B这个规模来走的。这就是为什么它能在效率上远超同参数量的Dense模型。

打个比喻,就像一家有1600个员工的公司,但每次完成一个任务只需要调49个人,其他人待机。

V4-Pro在Hugging Face上的权重文件是865GB,V4-Flash是160GB。如果你有128GB内存的MacBook,Flash版可能跑得起来,Pro版……理论上能从磁盘流式加载专家,但这个体验不会太好。

这次最核心的技术突破是什么

说实话,V4这次最让我眼前一亮的地方不是参数规模,是它怎么解决长上下文的效率问题。

大家都知道100万token的上下文不是什么新鲜事,Gemini很早就支持了,Claude也一直在做长上下文。但这里有个巨大的坑,叫做注意力机制的二次方复杂度,context越长,计算量按平方增长,不是线性,是平方。这意味着把上下文从10万扩到100万,计算量理论上会变成100倍。

所以大多数公司的百万上下文,是一个”能用但很贵”的功能,真正大规模调用起来会让账单爆炸。

DeepSeek V4做的事情,是从架构层面把这个问题切掉了。

他们用了一套叫混合注意力机制的东西,把两种新型注意力交织在一起。

第一种叫CSA(压缩稀疏注意力)

传统注意力是每个token要跟序列里所有其他token算相关性,CSA的思路是先把KV缓存沿序列维度压缩,V4的压缩率是4倍,然后用一个”索引器”给每次查询挑出最相关的top-k个压缩条目来做注意力。V4-Pro每次选1024个,V4-Flash选512个。同时保留一个128 token的滑动窗口,确保局部上下文不会被遗漏。

第二种叫HCA(强压缩注意力)

如果说CSA还算精细化处理,HCA就是粗暴压缩了,压缩率128倍,把大量token合并成一个条目,然后在这个高度压缩的表示上做稠密注意力。这让模型用极低的算力代价,获得对整个超长序列的一个全局感知。

CSA和HCA交替分布在模型的不同层里。V4-Pro从HCA层开始,V4-Flash前两层用滑动窗口,然后交替进行。这样模型在每一层都能在”精准的稀疏查找”和”粗糙的全局视角”之间动态切换,而不是非此即彼。

结果就是,100万token上下文下,V4-Pro的单token推理算力只有V3.2的27%,KV Cache只有10%。

相同上下文长度,计算量降到了27%,内存占用降到了10%

这不是小优化,这是架构层面的降维。这意味着100万token的上下文,在V4上变成了一个经济上可行的日常功能,而不是只有土豪客户才能烧得起的premium特性。

然后还有第三个架构创新,叫mHC(流形约束超连接)。

这个是训练稳定性方面的东西。标准Transformer里的残差连接,就是把层的输入直接加到层的输出上,这个设计在浅层网络里没问题,但在极深的模型里,信号传播会出现不稳定,放大、震荡、训练崩溃。

mHC的做法是把残差连接投影到一个叫Birkhoff多胞形的数学流形上,用Sinkhorn-Knopp算法来强制满足双随机矩阵的约束,把谱范数限制在≤1。

听起来很抽象,翻译成大白话,不用mHC的时候,DeepSeek自己的27B实验里出现了3000倍的信号放大,训练直接崩了,用了mHC之后,放大倍数降到1.6倍,在1.6T参数规模下依然稳定训练。

这个东西已经被IBM、Fireworks AI和多个研究团队标记为”深度网络训练稳定性的基础性贡献”,未来可能影响远不止注意力机制。

最后是Muon优化器

过去大家训练大模型基本都用AdamW,DeepSeek V4换成了Muon。Muon的核心原理是用Newton-Schulz迭代近似地把梯度更新矩阵正交化,然后再应用为权重更新。实际效果是更快收敛、训练更稳定,在1.6T这个量级上,优化器的稳定性是catastrophic failure和正常训练之间的差别。

所以V4这次的架构不是”更大的V3″,是在注意力、残差连接和优化器三个层面都做了实质性的重构。

训练方法上也有一个值得注意的变化

V4的后训练管线跟之前不太一样。

它用的是两阶段方法,先分培,再合并。

第一阶段,针对每个专业领域单独培养专家模型,数学专家、代码专家、Agent任务专家、通用指令专家,每个专家先做SFT精调,然后用GRPO(一种强化学习技术,之前R1就用过)在领域专属的奖励模型下做RL训练,让每个专家在自己的领域里先练到极限。

第二阶段,用OPD(On-Policy Distillation,策略蒸馏)把所有专家的能力整合进一个统一模型。

OPD和普通蒸馏有个本质区别,普通蒸馏是学生直接模仿老师的输出,OPD是学生先自己生成回答,然后10个专家老师来评判和纠正,学生从这个feedback里学习。

这个流程的好处是什么?

传统多能力联合训练有一个臭名昭著的问题,叫知识干扰,数学的逻辑严谨性和创意写作的灵活性互相打架,代码的确定性思维和通用推理互相妥协,最终训出来的是一个到处都还可以,但哪里都不极致的模型。

V4的两阶段方法先让每个能力跑到天花板,再整合。从benchmark结果来看,这个思路是有效的。

这里有一个美中不足,DeepSeek在技术报告里自己承认了,V4用了10个老师模型的输出来做OPD。OpenAI和Anthropic已经公开指控,中国AI公司包括DeepSeek,通过2.4万个欺诈账号跑了1600万次对话,涉嫌从Claude等模型里非法蒸馏能力。美国白宫在V4发布前一天(4月23日)专门发了个备忘录,称”工业规模级”的能力窃取是国家安全威胁。

DeepSeek没有直接回应这个指控,中国外交部称这是”对中国AI成就的污蔑”。

这条线没定论,但它会是V4后续生命周期里绕不开的阴影。

Benchmark到底说明了什么,又不说明什么

先把数字摆出来。

V4-Pro-Max的成绩单,GPQA Diamond 90.1,GSM8K 92.6,MMLU Pro 87.5,LiveCodeBench 93.5(这是新的开源模型最高分),Codeforces评级3206(在人类参赛选手里排名第23位)。

跟闭源模型比,与Claude Opus 4.6、GPT-5.4在编程benchmark上基本持平,在SWE-bench Verified上拿了80.6%,跟Claude Opus 4.6只差0.2个点。

这些数字看起来很猛,但有几个地方需要冷静看。

第一,”V4-Pro-Max”这个模式是最大推理预算下的结果,不是日常使用状态。

V4提供三个推理模式:Non-Think、Think High、Think Max。同一个模型,HLE(超高难度基准)这个benchmark,Non-Think模式下7.7分,Max模式下37.7分,差了将近5倍。

benchmark上晒的数字是Max模式,实际API调用成本和速度会有很大差异,不是一回事。

第二,知识类任务还是有差距。

DeepSeek自己的技术报告里承认,V4″落后最先进前沿模型大约三到六个月”。在知识密集型benchmark上,V4-Pro-Max仍然落后于Gemini 3.1 Pro。MMLU-Pro、SimpleQA、GPQA Diamond、HLE,这几个任务代表的是广博的世界知识积累,参数量越大优势越明显,Gemini目前还是压着V4的。

第三,超长上下文的检索质量有天花板。

100万token的理论很美,现实是在MRCR测试里,超过128K token之后检索准确率开始下降,到100万token的时候只有66%。这不是废了,但离”完美处理100万token”还有差距。用来做全书代码库理解可以,用来做精确法律文档检索的话要谨慎。

第四,V4-Pro和V4-Flash的差距比你想的小。

在同等推理预算下,Flash-Max在推理类benchmark上的成绩非常接近Pro-Max,差距只有1到2个点,但API成本是Pro的12分之一。如果你的业务不需要极致的知识广度,Flash-Max可能是性价比最炸裂的选择。

价格这把刀,每次都往行业心脏捅

这个环节我有点语言匮乏,因为DeepSeek的定价逻辑已经不能用”便宜”来形容了,这是真不要钱。

V4-Flash,输入$0.14/百万token,输出$0.28/百万token。

V4-Pro,输入$1.74/百万token,输出$3.48/百万token。

对比一下

GPT-5.4和Claude Opus 4.6的输出价格是$25到$30/百万token。

V4-Pro是$3.48。

相同编程benchmark性能,V4-Pro比Claude Opus 4.6便宜7倍以上。

V4-Flash比GPT-5.4 Nano还便宜,是目前价格最低的小型前沿模型。

还有一个细节更厉害,DeepSeek说等华为Ascend 950处理器今年量产规模上来之后,V4-Pro的价格还会进一步降低。

这意味着什么?

意味着当其他公司在想怎么给高质量API涨价的时候,DeepSeek在想怎么继续降。商业逻辑完全不在一个维度上。

当然,价格极低背后也有代价。DeepSeek需要高度依赖国产芯片基础设施来控制成本,这条路走得通的前提,是华为的算力规模真的能跑起来。

那个房间里的大象,芯片和地缘政治

这次V4发布,一个巨大的背景是华为芯片。

彭博今天(4月26日)报道,V4发布推迟了好几个月,原因是DeepSeek花时间重构了底层软件栈,目标不只是让模型在华为Ascend芯片上”能跑”,而是做到硬件级别的调优,针对华为架构专门优化内存访问、算子排布。

华为在V4发布当天官方确认,他们的AI集群可以支持V4运行。

半导体制造国际公司(SMIC)的股价当天涨了10%,因为SMIC是华为Ascend处理器的制造商之一。

这个信号的意义远超AI本身,如果DeepSeek真的能在没有Nvidia最先进芯片的情况下训出并跑通一个前沿大模型,那整条美国芯片禁运,中国AI发展受限的逻辑链就被打穿了。

当然,现在还有很多没说清楚的问题。

华为芯片在训练里到底用了多少,跟Nvidia的比例怎么分?Huawei Ascend 950PR的2.87倍H20性能宣传,实际用在大规模训练里表现怎么样?这些数据DeepSeek没有公开,从芯片消耗推算的独立验证也没有出来。

但方向是明确的,中国正在有意识地构建一套平行的AI基础设施,DeepSeek是这套基础设施的主要模型供应商。这件事,比任何benchmark数字都更重要。

它的短板,技术报告自己说了

值得称赞的是,DeepSeek的技术报告对V4的局限性写得相当坦诚,没有一味吹。

第一个问题,架构太复杂了。

为了控制风险,V4在CSA、HCA、mHC、Muon、FP4这些新创新上,保留了大量V3已经验证过的组件。技术报告里原话是,现在的架构相对复杂,下一代会试图把架构精简到最本质的设计。这话翻译过来就是,现在的V4有点像一辆为了装各种新功能而越来越重的改装车,还没做到优雅。

第二个问题,训练稳定性原理没完全搞懂。

他们用了两个新技术来解决训练不稳定的问题,Anticipatory Routing和SwiGLU Clamping,在实践里管用,但技术报告里承认”背后的底层原理还理解得不够充分”,称训练稳定性是”待研究的基础性问题”。工程上解决了,学术上还没解释清楚。

第三个问题,没有多模态。

这是最明显的缺口。GPT-5.4、Gemini 3.1、Claude Opus 4.6,都深度支持图像、视频等多模态输入,V4还是纯文本。

DeepSeek说在”积极开发”多模态能力,但当前版本不支持。有消息说多模态被推迟,是因为算力和资金压力,而DeepSeek在4月中旬刚刚开放了外部融资窗口,这个时间节点挺耐人寻味的。

DeepSeek之前做过大量视觉语言模型相关的研究,包括DeepSeek OCR,所以多模态技术储备不是没有,是优先级排序的问题。但这意味着,现阶段如果你的业务需要处理图片、视频,V4帮不上忙。

第四个问题,不是R1,没有新叙事。

R1在2025年1月的出圈,是它颠覆了一个认知,花极少的钱、用受限的芯片,一样能训出顶级推理能力。这个故事让整个AI行业的底层逻辑被重写,大家都傻眼了。

V4的故事是什么?更大、更便宜、上下文更长、架构更优雅。这些都是真的,但它是在一个已经被确立的认知框架里继续进化,没有打破新认知。

Morningstar的分析师Ivan Su说:市场已经把”中国AI既有竞争力又便宜”这个结论消化完了,V4的发布不会再引发类似R1的冲击。

V4在行业里的位置在哪里

先说开发者和企业用户,V4-Flash是目前市场上性价比最高的前沿小模型,没有之一。

13B激活参数,100万token上下文,Max模式推理能力接近Pro,输出只要$0.28/百万token。对于需要大量调用API的代码生成、文档处理、Agent工作流,Flash就是现在的首选。

V4-Pro针对Claude Code、OpenClaw等主流Agent框架做了专项优化,在Agentic Coding benchmark上是开源SOTA。如果你在搭一套重度代码Agent,把Pro替换进去是值得测试的。

再说行业竞争格局,V4让中国开源AI赛道的竞争框架发生了变化。

R1时代,DeepSeek是挑战者,对手是GPT和Claude这些闭源模型。V4时代,DeepSeek开始把阿里的Qwen、字节跳动的Seed、MiniMax、Moonshot这些国内对手列为直接竞争者——这个定位的变化,说明国内AI竞争已经进入了白热化阶段。

V4发布当天,MiniMax、Zhipu(知乎)的股价分别跌了约8%,Manycore Tech跌了9%。资本市场的反应很直接。

最后说地缘政治维度,这是一次AI主权的展示。

无论V4的技术细节怎么被解读,它有一个核心信号是不可忽视的,如果华为芯片路线走通,如果这个成本结构真的可持续,那中国就有了一套在美国出口管制之外能独立运转的前沿AI基础设施。

这比任何一个benchmark分数都更根本地改变了接下来的竞争格局。

V4是DeepSeek回归前沿的一次有分量的发布。技术扎实,架构有创新,价格继续杀价,开源生态继续维护。

但它不是颠覆者,是守擂者。

开源赛道老大的位置,这次稳住了,而且进一步巩固。但想像R1那样再次震撼整个行业,V4做不到,也没打算做到。

V4真正有趣的遗留问题,有三个。

多模态版本什么时候来,来了之后能不能在图像视频这块跟Gemini和GPT-5正面刚。

华为Ascend芯片的量产规模上来之后,训练效率和价格还能往下走多远。

国内的竞品Qwen、字节、MiniMax、智谱,Kimi面对V4这张牌,接下来会出什么招。

本文由 @王小小 原创发布于人人都是产品经理。未经作者许可,禁止转载

题图来自Unsplash,基于CC0协议

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
主流AI IDE的token成本爆炸?试试登上GitHub日榜的Claude Context..
总结来说,纯grep方案主要有三大问题:信息过载:现代代码库动辄数万文件..
郑州GEO优化:珍岛集团如何助力企业抢占AI搜索先机
随着生成式AI技术的快速发展,企业营销正在经历一场深刻变革。截止2025年..
甚好AI助手V1.0产品发布——企业 ERP 的全场景智能交互助手..
#甚好AI助手V1.0正式版于2026年4月正式发布#作为企业 ERP 全场景智能交互..
Siri将对标ChatGPT,进化为完整的聊天机器人,誓要摘掉“人工智障”的帽子..
安徽交通广播2026-01-26 13:16:32据白鹿视频,1月26日,爆料称苹果计划在..
从2年到10年,行业大佬也说不准机器人的chatGPT时刻|2026博鳌论坛..
来源:凤凰网财经《公司研究院》作者:杨诗涵眼下,人们对于机器人的态度..
从GPT-6到人形机器人,一场技术与商业的双重革命
一场迟到但终将到来的革命2026年4月的第二周,全球科技圈被三条重磅消息..
优必选WalkerS2打工记:广东机器人迎ChatGPT时刻
南方财经记者郑康喜 实习生王泽南 广州报道你能想象,未来的工厂里是一群..
对话英伟达业务副总裁:机器人的“ChatGPT时刻”正在到来..
“世界基础模型学习世界的方式是基于物理定律而非语言规律。Cosmos开源,..
2年、5年和10年,人形机器人的“ChatGPT时刻”何时到来?..
中新经纬3月25日电 (薛宇飞 王玉玲)“你们觉得人形机器人的‘ChatGPT时刻..
关于作者
重新开始(普通会员)
文章
1990
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105913

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索