2026年4月24日,OpenAI 发布 GPT-5.5 的同一天,DeepSeek 端出了酝酿一年半的新模型 DeepSeek-V4。
一个是美国 AI 巨头,一个是国产开源新锐,同台竞技——有人把这天称为 AI 史上的"超级星期二"。
DeepSeek 的"消失"这一年多在说 V4 之前,有必要先聊一句 DeepSeek 这一年多去哪了。
2024 年 12 月,DeepSeek V3 和随后的 R1 推理模型横空出世,用极低的训练成本做出了对标 GPT-4o 的性能,在开发者圈子里被称为"东方力量冲击硅谷"。那是 DeepSeek 最风光的时刻。
然后,就是漫长的沉默。
V3 之后,DeepSeek 没有急着发新品。社区里有人调侃:是不是"出道即巅峰",后面跟不上了?还有人猜测,团队可能在憋大招,或者在认真做芯片适配。毕竟这一次 V4 明确与华为昇腾深度绑定——这意味着过去一年多,有大量工作是在和国产硬件"磨合"。
这种沉默本身,其实也是一种信号:当一个团队不再追逐每个月的版本号,而是愿意花一年半去打磨底层,说明它在乎的不只是"领先三个月",而是更长的竞争。
V4 到底升级了什么第一,长上下文终于不是"纸上谈兵"了。
大模型支持更长的上下文(简单理解就是"一次能看的文字量"),早就不是什么新鲜事。但上下文越长,计算量和内存占用就会爆炸性增长——很多模型虽然声称支持超长文本,实际上跑到一半就"喘"了,速度和准确性都会断崖式下跌。只是纸面参数而已。
V4 的做法是引入混合注意力机制,CSA(Compressed Sparse Attention,压缩稀疏注意力) HCA (Heavy Compressed Attention,重度压缩注意力),本质上是把长文本"压缩"了再处理。结果是:在处理 100 万 token 超长上下文时,V4 的内存消耗只有上一代的 10%。
打个比方:以前让 AI 读一本小说,它需要把每个字都记住再分析;V4 的做法像是先提炼出章节概要、重点段落,再去细读——但这个"提炼"是模型自动完成的,效果不打折扣。
第二,推理速度和质量的双提升。
V4 在标准基准测试中,部分表现(如编程、数学、中文、长文本、Agent等)已经超越美国同类闭源模型。特别是在"Agent 能力",让 AI 自主完成多步骤复杂任务,上提升明显。
这意味着什么?以前你让 AI 帮你写代码,它只能一段一段生成;现在它可以理解一个完整的需求,自己规划步骤,调用工具,迭代修正,最终交付结果。不是更好的 Siri,是能替你工作的 AI助手。
第三,定价依然便宜。
DeepSeek 一直打的是"高性能 低成本"的组合拳。V4 延续了这个策略,且后续会随着华为昇腾 950 芯片量产进一步降价。对开发者和中小企业来说,用 V4 的成本可能只有调用 GPT-5.5 的几分之一。
国产开源模型的天花板,在哪里DeepSeek-V4 的发布,确实让国产开源大模型站在了一个新位置。
不是"接近"了第一梯队,而是开始有了自己的路数——效率优先、硬件绑定、低价下沉。这套组合拳和 OpenAI 走的路并不完全一样,但确实在某些维度上构成了竞争。
当然,天花板在哪,现在下结论还早。一年半的沉默换来的是一个预览版,完整的开源权重和更全面的测评还需要时间验证。
但有一点可以确定:DeepSeek 没有躺在 V3 的功劳簿上。 这一点,无论对行业还是对普通关注者来说,都值得继续看下去。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体107754