扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋-工信会

> 自媒体 > （AI）人工智能 > 扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋

扒完 DeepSeek V4 报告，我翻出了这个隐藏彩蛋

来源：爱范儿

2026-04-28 15:48:15

183

管理

今天上午，DeepSeek V4 发布，直接把这个大模型疯狂更新月推向了最高潮。

百万上下文标配，性能比肩顶级闭源模型，首发适配华为昇腾芯片，随便一个点单拎出来能写一篇爆款头条。

不过在我翻看 V4 的技术报告的时候，在训练层面看到了一个被大部分人滑过去的名词：Muon 优化器。

图片由 image-2 制作.

五次「撞车」，如果只是时间重合，那叫巧合。但把每次发布的内容拉出来看，你会发现一条清晰的暗线：每次撞车恰好对应一个 AI 行业拐点的到来。

第一次是最戏剧性的。2025 年 1 月 20 日晚 8 点 10 分，DeepSeek R1 发布并以 MIT 协议完全开源。不到两小时后，Kimi k1.5 亮相。

两者都瞄准同一件事：让模型从「张嘴就来」变成「先想后说」，用强化学习跑通 Long-CoT 长思维链推理。

在这之后，中国的开源力量就彻底改变了整个全球 AI 的格局。

后来 OpenAI 在一篇论文中点名指出：Kimi 和 DeepSeek 是「最早复现 OpenAI-o1 Long-CoT」的两家公司。全世界只有这两家中国公司看懂了 OpenAI 在做什么，并且用自己的方式做了出来。

那是中国 AI 从「追随者」开始变成「引领者」的分水岭。

最近这次就是今天。四天之内，K2.6 带来了 SWE-Bench Pro 58.6% 的 Agent 集群并行编程能力，V4 把百万上下文做成了所有服务的标配，输出长度拉到 384K tokens。

两家同时推进国产芯片适配：V4 下半年支持华为昇腾 950，寒武纪已完成 Day 0 适配；K2.6 支持国产芯片混合推理。

Agent 能力、编程天花板、百万上下文、国产芯片适配、开源生态，全齐了。

从「学会思考」到「学会干活」，从「改 Transformer」到「改算力底座」，五次撞车其实展现出来的，是中国 AI 不再一味对标 OpenAI ，逐渐不再依赖英伟达，在开源上走出属于自己的路。

撞车背后的必然

发布撞车的巧合固然有意思，但更值得关注的，其实是巧合背后的一些必然。

让我们先回到 DeepSeek 架构里的 Muon 。

杨植麟在 GTC 演讲中讲了一个技术困难：当 Kimi 把 Muon 扩展到 1 万亿参数时，训练不稳定性成了拦路虎。最大 logits 爆炸超过 1000，正常值只有 50 到 100。

黄仁勋一语成谶。

而 Kimi 在国产芯片上走的路更早，也更深。为了给国产芯片「铺路」，Kimi 在架构创新上掏出了两个杀手锏。

Kimi Linear 混合注意力架构把线性注意力层与全注意力层以 7:1 配比混合，将 KV 缓存体积压缩到极低水平。实测数据很直观：32K 上下文下，混合架构模型 KV 吞吐量仅 4.66 Gbps，同规模稠密模型高达 59.93 Gbps。

DeepSeek 用 V4 证明了国产芯片能跑万亿参数的旗舰模型，Kimi 用架构创新证明了国产芯片可以跑得好、跑得省。

一个从工程适配切入，一个从架构设计切入，终点都是同一个：让英伟达不再是唯一选项。

以前的国产 AI 叙事是「用英伟达的卡，追 OpenAI 的模型」。现在这对双子星同时在写另一个剧本：用中国的芯片，跑中国的模型，服务全世界的开发者。

你的 MLA 是我的基础，我的 Muon 是你的加速器

回看这一周AI 行业的疯狂更新，我们已经处在了一个新的转折点。

同一周内，两个中国团队各自发布了万亿参数级开源模型，性能逼近甚至持平美国顶级闭源模型。这在一年前是不可想象的。

当闭源模型的价格是开源模型的 50 倍，开源阵营每隔几个月就推出一个新的万亿参数选手，竞争天平正在发生微妙的倾斜。

这不是「赢了」或「超越」这么简单的胜负之分。闭源模型在复杂推理和系统可靠性上仍然有明显优势，Opus 4.6 的思考模式依然是 V4-Pro 追赶的目标。但开源阵营的速度、成本优势和生态覆盖面，正在改变这场竞赛的规则本身。

除了这五次撞车发布，这两家公司还有一个巧合。梁文锋来自广东湛江，杨植麟来自广东汕头。两个广东人，撑起全球开源 AI 半边天。

梁文锋像工程师哲学家，相信开源和底层创新，V4 发布公告结尾引的是荀子，「不诱于誉，不恐于诽，率道而行，端然正己。」

至于杨植麟在我看来像产品科学家，他认为用户体验和技术突破可以兼得，在 K2.6 发布时他提到了 Linux 之父 Linus Torvalds 那句「Talk is cheap. Show me the code.」

一个古典，一个极客。就是这两个风格迥异的创始人，一起定位了中国开源模型在世界坐标系的位置。

你的 MLA 是我的基础，我的 Muon 是你的加速器。这大概也是中国在能在短时间内引领全球开源 AI 的重要原因之一。

#欢迎关注爱范儿官方微信公众号：爱范儿（微信号：ifanr），更多精彩内容第一时间为您奉上。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4终于发布，但它留下的5道主观题还没有答案

1个月前

南山医院携手华为，DeepSeek V4赋能智慧医疗

1个月前