DeepSeek 憋了一年半，交出了什么答卷-工信会

> 自媒体 > （AI）人工智能 > DeepSeek 憋了一年半，交出了什么答卷

DeepSeek 憋了一年半，交出了什么答卷

来源：细柳观风

2026-05-07 17:38:20

183

管理

2026年4月24日，OpenAI 发布 GPT-5.5 的同一天，DeepSeek 端出了酝酿一年半的新模型 DeepSeek-V4。

一个是美国 AI 巨头，一个是国产开源新锐，同台竞技——有人把这天称为 AI 史上的"超级星期二"。

DeepSeek 的"消失"这一年多

在说 V4 之前，有必要先聊一句 DeepSeek 这一年多去哪了。

2024 年 12 月，DeepSeek V3 和随后的 R1 推理模型横空出世，用极低的训练成本做出了对标 GPT-4o 的性能，在开发者圈子里被称为"东方力量冲击硅谷"。那是 DeepSeek 最风光的时刻。

然后，就是漫长的沉默。

V3 之后，DeepSeek 没有急着发新品。社区里有人调侃：是不是"出道即巅峰"，后面跟不上了？还有人猜测，团队可能在憋大招，或者在认真做芯片适配。毕竟这一次 V4 明确与华为昇腾深度绑定——这意味着过去一年多，有大量工作是在和国产硬件"磨合"。

这种沉默本身，其实也是一种信号：当一个团队不再追逐每个月的版本号，而是愿意花一年半去打磨底层，说明它在乎的不只是"领先三个月"，而是更长的竞争。

V4 到底升级了什么

第一，长上下文终于不是"纸上谈兵"了。

大模型支持更长的上下文（简单理解就是"一次能看的文字量"），早就不是什么新鲜事。但上下文越长，计算量和内存占用就会爆炸性增长——很多模型虽然声称支持超长文本，实际上跑到一半就"喘"了，速度和准确性都会断崖式下跌。只是纸面参数而已。

V4 的做法是引入混合注意力机制，CSA（Compressed Sparse Attention，压缩稀疏注意力） HCA （Heavy Compressed Attention，重度压缩注意力），本质上是把长文本"压缩"了再处理。结果是：在处理 100 万 token 超长上下文时，V4 的内存消耗只有上一代的 10%。

打个比方：以前让 AI 读一本小说，它需要把每个字都记住再分析；V4 的做法像是先提炼出章节概要、重点段落，再去细读——但这个"提炼"是模型自动完成的，效果不打折扣。

第二，推理速度和质量的双提升。

V4 在标准基准测试中，部分表现（如编程、数学、中文、长文本、Agent等）已经超越美国同类闭源模型。特别是在"Agent 能力"，让 AI 自主完成多步骤复杂任务，上提升明显。

这意味着什么？以前你让 AI 帮你写代码，它只能一段一段生成；现在它可以理解一个完整的需求，自己规划步骤，调用工具，迭代修正，最终交付结果。不是更好的 Siri，是能替你工作的 AI助手。

第三，定价依然便宜。

DeepSeek 一直打的是"高性能低成本"的组合拳。V4 延续了这个策略，且后续会随着华为昇腾 950 芯片量产进一步降价。对开发者和中小企业来说，用 V4 的成本可能只有调用 GPT-5.5 的几分之一。

国产开源模型的天花板，在哪里

DeepSeek-V4 的发布，确实让国产开源大模型站在了一个新位置。

不是"接近"了第一梯队，而是开始有了自己的路数——效率优先、硬件绑定、低价下沉。这套组合拳和 OpenAI 走的路并不完全一样，但确实在某些维度上构成了竞争。

当然，天花板在哪，现在下结论还早。一年半的沉默换来的是一个预览版，完整的开源权重和更全面的测评还需要时间验证。

但有一点可以确定：DeepSeek 没有躺在 V3 的功劳簿上。这一点，无论对行业还是对普通关注者来说，都值得继续看下去。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4高调发布美国：不能让世界建立在中国的开源模型之上

1小时前

炸穿天花板！DeepSeek V4开源，100万字长文秒读，硬刚GPT-5.5

2小时前