编辑:好困
【新智元导读】DeepSeek V4,1.6万亿参数,Codeforces人类第23,KV缓存砍到1/10,已在英伟达GPU和华为昇腾NPU上完成验证。同一周Kimi K2.6万亿MoE开源,也在推国产芯片混合推理。中国AI的底座和芯片,同时动了。
DeepSeek V4,炸了!
1.6万亿参数,百万token上下文KV缓存砍到前代的十分之一,Codeforces评分3206直接超过GPT-5.4,在人类选手中排第23。
开源权重、API、近60页技术报告一起扔出来,社区已经开始拆了。


顶尖玩家总在同一个山口相遇
回看过去15个月,DeepSeek和Kimi的瞄准的技术方向和发布时机,对齐到让人怀疑是约好的。
2025年1月,DeepSeek-R1推理模型和Kimi K1.5多模态思考模型同日上线,相隔仅两小时。OpenAI 的Paper 也指出他们两家是最早复现o1思维链的团队。
2025年2月,两家前后脚发论文,都在改造Transformer注意力机制。DeepSeek的NSA做原生稀疏注意力,Kimi的MoBA做混合块注意力,
2025年4月,Kimi推出 Kimina-Prover Preview数学推理专项模型没多久,DeepSeek-Prover-V2 也发布,都走了「自验证」路线来证明数学定理。
2026年初,DeepSeek用mHC流形约束超连接来改造深度学习网络中的「残差连接」。到了3月,Kimi放出新技术「注意力残差」,直接将Transformer的核心原理「注意力」应用到「残差连接」上,引发Karpathy、马斯克等大神称赞。
2026年4月,万亿开源模型 Kimi K2.6和DeepSeek V4同周上线。

你用我验过的注意力机制
我用你验过的优化器
多次「相遇」的表面之下,是一个更微妙的现象,两家公司的技术在互相加持。
Kimi K2的注意力机制采用了DeepSeek首创的MLA(Multi-head Latent Attention)。
传统多头注意力需要为每个注意力头单独存储Key和Value,上下文越长KV缓存越大。
MLA的做法是把Q/K/V压缩到一个低秩的latent向量中,推理时只需缓存这个压缩向量再解压,KV缓存量大幅缩减。
在这套注意力机制上,K2扩展到了万亿参数的MoE模型。

反过来,DeepSeek V4采用了Muon优化器。
主流的AdamW对每个参数独立做自适应缩放,Muon则对整个梯度矩阵做Newton-Schulz正交化,让更新方向在矩阵空间中更均匀。
Muon最初由Keller Jordan等人提出,但只在小模型上验证过。
2025年初,Kimi团队的Moonlight论文中首次把Muon扩展到大规模训练,实验显示相同算力下Muon的计算效率约为AdamW的两倍。
2025年中,在万一参数的K2模型上,进一步开发出MuonClip,加入QK-clip来控制注意力logits的数值范围,实现了15.5万亿token预训练全程零loss spike。

老黄的PPT里,两个都是中国的
2026年初的CES大会上,黄仁勋展示Rubin NVL72性能的slide里,训练基准用的是DeepSeek,推理吞吐和token成本基准用的是Kimi K2-Thinking。
同一张PPT,两个中国开源模型。

衡量模型在未见过的代码库上的理解能力,越低越好


开发者端的数据也印证了这个趋势。
今天的OpenRouter调用量排行榜上,Kimi K2.6以297B tokens排名第一,DeepSeek V3.2以204B tokens排名第四。
前五名里两个中国模型,中间夹着Claude。

同一个方向,同一张桌子
而在芯片这条暗线上,两家也在同一个方向推进。
V4技术报告明确写到,细粒度专家并行方案同时在NVIDIA GPU和华为Ascend NPU上完成了验证。Kimi新论文《Prefill-as-a-Service》则引入分离式架构,推进国产芯片的混合推理方案。


竞争是表面,加速是结果
如果只有一家,可以说是个例。
但同一周两个万亿参数开源模型同时落地,背后的技术还在互相渗透,被GTC和Meta选为性能基准,被Cursor和Rakuten拿去当底座。

当某些闭源模型之间还在互相猜忌的时候,这两家已经在论文里互相引用、在代码里互相复用了。
这大概就是开源最硬的复利。
参考资料:
https://github.com/MoonshotAI/Kimi-K2/blob/main/tech_report.pdf
https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789