外媒,表现平平还是被低估？DeepSeek V4 的展现 “令人印象深刻”-工信会

> 自媒体 > （AI）人工智能 > 外媒,表现平平还是被低估？DeepSeek V4 的展现 “令人印象深刻”

外媒,表现平平还是被低估？DeepSeek V4 的展现 “令人印象深刻”

来源：人工智能学家

2026-04-28 12:39:34

管理

Scmp报道，DeepSeek 带着久违的旗舰新品V4回来了，只是这一次，外界的掌声没有当年R1横空出世时那么响亮。

根据独立基准测试机构Artificial Analysis于4月25日发布的最新评测，DeepSeek V4 Pro在全球开源模型智能指数榜单中排名第二，得分52分，仅次于北京月之暗面（Moonshot AI）旗下的Kimi K2.6（54分）。与此同时，GLM-5.1（51分）紧随其后，差距不足一步。

这个结果，与DeepSeek今年年初凭借R1系列一鸣惊人、令硅谷侧目的辉煌相比，多少显得有些"中规中矩"。但数字背后，却有不少值得细看的东西。

真正的进步不容忽视

V4 Pro相比前代V3.2的提升幅度实际相当显著，在Artificial Analysis智能指数上从42分跃升至52分，整整进步了10分。架构也完成了一次大刀阔斧的升级：V4 Pro采用全新混合专家架构（MoE），总参数量达1.6万亿，激活参数为490亿，相比V3家族的6710亿总参数、370亿激活参数，是一次质的扩张。

在代理任务（Agentic Tasks）这一近年来业界最看重的实战能力赛道上，V4 Pro的表现尤为突出。在GDPval-AA代理基准测试中，V4 Pro以1554分高居开源模型榜首，超越Kimi K2.6（1484分）和GLM-5.1（1535分）。

上下文窗口从V3.2的12.8万token扩展至100万token，整整扩大了8倍，这对处理长文档、代码库分析、复杂多轮对话等场景意义重大。

短板同样清晰可见

然而，V4 Pro并非没有软肋。最让研究者皱眉的，是其极高的幻觉率，V4 Pro和V4 Flash的幻觉率分别高达94%和96%，意思是当模型不知道答案时，它几乎必然会"编"一个出来，而不是坦承不知。这对需要高可靠性输出的商业应用场景来说，是个不小的隐患。

在成本端，V4 Pro的定价策略也显得颇为矛盾。每百万输入/输出token定价为1.74美元/3.48美元，虽然比Claude Opus 4.7便宜四倍以上，但相较于其他开源竞品，例如Kimi K2.6（948美元/次评测）和GLM-5.1（544美元/次评测），V4 Pro的综合运行成本高达1071美元，价格优势并不明显。这背后的原因在于，V4 Pro的输出token消耗量极高，单次评测消耗高达1.9亿个输出token，"烧钱"速度远超同级别对手。

在众包用户偏好平台Chatbot Arena上，V4 Pro的表现也低于预期，用户主观感受评分落后于官方基准测试所呈现的水准，说明模型在真实使用体验上仍有距离要追。

重返战场，但竞争格局已然不同

一年前，DeepSeek R1横空出世，让美国科技界为之震惊，英伟达股价应声大跌，关于中国AI能力的讨论一夜之间占据全球头条。但这一次，开源AI赛场的格局已大不相同。

中国本土的竞争者——月之暗面、智谱AI、MiniMax，乃至传闻中小米将公开权重的MiMo-V2.5-Pro，都在奋力追赶甚至局部超越DeepSeek。与此同时，OpenAI、Google、Anthropic的闭源旗舰模型依然在总榜上遥遥领先，V4 Pro尚未触及那条线。

DeepSeek此次同步推出的轻量版V4 Flash（284B总参数，130亿激活参数）表现也值得关注，智能指数得分47分，超越前代V3.2，且在模型尺寸与性能的性价比曲线上位置优越，定价仅为0.14美元/0.28美元每百万token，适合对成本敏感的中小型应用场景。

V4的发布还有一个外界容易忽略的信号——DeepSeek官方宣布，V4完全支持华为昇腾芯片，这在美国持续收紧芯片出口管制的背景下，折射出中国AI产业链寻求自主化路径的战略意图。

DeepSeek V4没有创造新的奇迹，但它证明了这家公司仍然是全球开源AI格局中不可忽视的力量。问题是，下一个真正的"惊喜时刻"，还在不在它手中。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

实测DeepSeek V4：6大核心升级，AI体验全面质变

1个月前

沉默15个月，DeepSeek 终于明牌了

1个月前