没有发布会,没有预热海报,就这么静悄悄突然的来了。
我赶快得用上,本篇文章采用Claude Code DeepSeek V4 Pro自主撰写;

说回正事。
这次V4不是只有一个模型,是一整个系列。

OpenAI和Google的旗舰模型在写代码这件事上,被一个开源的、MIT协议的模型超了。不是"接近",是明确超过。

▲ DeepSeek-V4-Pro Max 与各前沿模型在知识、代码、数学、长上下文、Agent五大维度的全面对比(来源:DeepSeek V4 技术报告)
说完编码说推理。
V4最大的设计变化是这个:三种推理模式。Non-think(快速直觉回答),Think High(有意识逻辑分析),Think Max(极致推理)。
简单理解:Non-think是你问"今天天气怎么样"用的;Think High是你问"帮我分析这个SQL为什么慢"用的;Think Max是你问"给我证明P≠NP"用的——开玩笑的,这题目前还没人能做出来,但意思到了。
Non-think到Think Max之间,同一个V4 Pro在不同基准上的表现可以从个位数跳到90多分。比如Apex Shortlist从Non-think的9.2分跳到Think Max的90.2分——不是翻倍,是翻了将近10倍。这说明V4在推理模式之间的跨度非常大,不是那种"调个参数意思一下"的级别。
但这里有一个我必须说的"但是"。
V4在知识型任务上,跟Gemini 3.1 Pro还有差距。GPQA Diamond,Gemini 94.3%,V4 Pro Max 90.1%。SimpleQA,Gemini 75.6%,V4 57.9%。差了将近18个百分点。MMLU-Pro,Gemini 91.0%,V4 87.5%。
说白了,Google Gemini在"记住并准确回答事实问题"这件事上还是明显更强。DeepSeek的长板是推理和编程,不是百科全书。
还有一个需要注意的地方:上面列的所有V4 Pro数据,都是Pro Max模式跑出来的。如果你用Pro的Non-think模式,LiveCodeBench只有56.8%。Pro Max的93.5%是靠大量推理时间砸出来的。这不是免费午餐。
···
讲到这,我觉得有一个问题需要说清楚:DeepSeek V4到底意味着什么?
去年12月V3发布的时候,我的观感是"中国团队在算力受限的情况下做出了接近GPT-4o水平的东西,很不容易"。
现在V4发布,观感变了:不是"在条件不好的情况下很不容易",是大家回到同一起跑线了。开源的模型在代码任务上和最强的闭源模型平起平坐甚至略超,推理能力在一个梯队里,知识任务稍弱但差距在缩小。
而且,MIT协议。随便商用,随便改,随便蒸馏。
我认识几个在做AI应用创业的哥们,去年他们最纠结的事就是"选谁家的模型"。选OpenAI怕被锁死,选闭源国产怕不可控,选开源又怕能力跟不上。V4这次,至少给了他们一个可以认真考虑的开源选项——不是"勉强能用"级别的考虑,是"跟最好的比也不虚"级别的考虑。
当然,我也有不确认的事。
第一,V4目前是"预览版"。DeepSeek官网用的是这个词。预览版通常意味着不是最终版本,后续可能有调整。但目前API已经可用了,模型权重也全开源了,所以至少不会是"发个PPT让你期待一下"那种预览。
第二,Flash在Think Max模式下的表现也很能打——LiveCodeBench 91.6%,跟Pro Max的93.5%只有两个点不到的差距——但Flash在网页搜索(BrowseComp)和终端操作(TerminalBench)这些Agent场景上跟Pro有明显差距。这意味着如果你要做复杂Agent应用,还是得上Pro。
···
最后说个有意思的细节。
V4论文标题叫《Towards Highly efficient Million-Token Context Intelligence》。关键词不是"powerful",不是"state-of-the-art",是"efficient"。这篇105页的技术报告里,"efficiency"这个词至少出现了40次。DeepSeek整篇论文反复在讲一件事:不是我们参数多厉害,是我们把效率做到了极致。
考虑到他们在算力受限的条件下做这件事——你可以把这理解成一种"约束下的美学":在有限资源内,靠架构创新而不是靠堆算力拿到世界级结果。
这大概也是为什么我觉得V4值得写一篇。不是因为数字好看——数字确实好看——是因为在这个训练成本飞涨、大家都觉得"没有几亿美元就做不了前沿模型"的2026年,有人用另一种方式证明了:不一定。
相关资源 & 链接技术报告(105页PDF)https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf DeepSeek-V4-Pro(1.6T/49B激活)https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro DeepSeek-V4-Flash(284B/13B激活)https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash DeepSeek-V4-Pro-Base(基座模型)https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro-Base DeepSeek-V4-Flash-Base(基座模型)https://huggingface.co/deepseek-ai/DeepSeek-V4-Flash-Base 魔搭社区 - V4 Pro(国内加速)https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Pro 魔搭社区 - V4 Flash(国内加速)https://modelscope.cn/models/deepseek-ai/DeepSeek-V4-Flash DeepSeek 官网https://deepseek.com 在线体验 V4https://chat.deepseek.com API 文档(支持 OpenAI / Anthropic SDK 兼容调用)https://api-docs.deepseek.com GitHubhttps://github.com/deepseek-ai
觉得有用?转发给一个可能会用到的朋友。有什么想讨论的,评论区聊。
还没关注?点上面的「Ai训练师.三十三」,我每周写AI圈里值得认真说的事。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789