深度评测 DeepSeek V4：国产开源之光能否匹敌 Claude Opus 与 GPT 5.4-工信会

> 自媒体 > （AI）人工智能 > 深度评测 DeepSeek V4：国产开源之光能否匹敌 Claude Opus 与 GPT 5.4

深度评测 DeepSeek V4：国产开源之光能否匹敌 Claude Opus 与 GPT 5.4

来源：冯小ai的日记

2026-04-28 21:10:47

管理

今年的重磅发布之一终于来了！经历了漫长的等待，我们终于迎来了 DeepSeek V4 模型的面世。

如果你还有印象，DeepSeek V3 是在 2024 年 12 月发布的，随后席卷全球的 DeepSeek R1 则在 1 月登场。距离上一个版本（DeepSeek 3.2）发布已经过去了好几个月，而在这期间，各大 AI 实验室纷纷推出了众多新模型，竞争格局早已发生变化。

为了探究 DeepSeek 是否还能紧跟甚至超越行业步伐，我决定抛开枯燥的跑分测试和竞技场（Arena）基准，亲自上手实测。今天评测的主角是性能最强的 DeepSeek V4 Pro Thinking 模型。

金门大桥（高难度测试）：在这个复杂的提示词下，DeepSeek V4 表现不佳。生成的交通流十分混乱，海湾的结构也有问题。相比之下，Gemini 3.1 生成的桥梁连贯得多，而 Opus 4.7 虽然也有一点瑕疵，但整体优于 DeepSeek。

第二轮：SVG 代码生成能力

SVG 生成能很好地考察模型的空间化结构能力。

在生成动态循环骑行的 SVG 测试中，DeepSeek V4 展现了大幅提升，远超部分开源模型（如 Minimax 和 Muse）。要知道，之前的 DeepSeek 3.2 甚至完全无法理解并计算出这个任务。

GLM 5.1 在这方面的表现与 DeepSeek 相似甚至略胜一筹。

Gemini 虽然表现极佳，但可能在 SVG 方面有过专门的基准优化。

第三轮：UI 与网页设计创意测试

为了测试模型的创造力，我让它们生成了一些突破常规的 UI 界面：

1907 年世博会网站：Opus 4.7 对复古创意的理解最为到位，字体选择和整体氛围非常出色，排名第一。DeepSeek 紧随其后，击败了线条略显笨重的 GLM 5.1。而 Gemini 生成的结果则显得有些无聊。

收入恢复指挥中心仪表盘：Muse Spark 让人眼前一亮，生成的结果最像真实的专业仪表盘。Gemini 表现得十分具有功能性，而 DeepSeek 和 Opus 在这一局表现有些拉胯。

复古未来主义智能家居 OS：这是一项极具创意的挑战。Gemini 凭借极具触感和创意的设计胜出，Opus 也表现出色，两者包揽前两名。

垂直农场界面：DeepSeek 和 GLM 生成了类似游戏的交互环境，两者的表现非常接近，难分伯仲。

总结与展望

整体来看，相比于前代 V3.2，DeepSeek V4 实现了极其巨大的飞跃，这背后显然得益于全新的预训练和后训练技术。

虽然在生成稳定性和极致的创造力方面，它可能还没有完全超越目前最顶尖的几款闭源模型，但它已经成功赶上了第一梯队，综合体验与 GLM 5.1 相当。

最后，我强烈建议大家不要只看冷冰冰的跑分榜单！亲自去 Arena 平台上手体验这些模型，输入你常用的提示词，你才能真正感受到这些模型带来的震撼！

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

重磅升级！DeepSeek 4.0 正式发布，全域能力全面革新

1个月前

DeepSeek V4刚发了，简单聊聊

1个月前