今年的重磅发布之一终于来了!经历了漫长的等待,我们终于迎来了 DeepSeek V4 模型的面世。
如果你还有印象,DeepSeek V3 是在 2024 年 12 月发布的,随后席卷全球的 DeepSeek R1 则在 1 月登场。距离上一个版本(DeepSeek 3.2)发布已经过去了好几个月,而在这期间,各大 AI 实验室纷纷推出了众多新模型,竞争格局早已发生变化。
为了探究 DeepSeek 是否还能紧跟甚至超越行业步伐,我决定抛开枯燥的跑分测试和竞技场(Arena)基准,亲自上手实测。今天评测的主角是性能最强的 DeepSeek V4 Pro Thinking 模型。

金门大桥(高难度测试):在这个复杂的提示词下,DeepSeek V4 表现不佳。生成的交通流十分混乱,海湾的结构也有问题。相比之下,Gemini 3.1 生成的桥梁连贯得多,而 Opus 4.7 虽然也有一点瑕疵,但整体优于 DeepSeek。
第二轮:SVG 代码生成能力
SVG 生成能很好地考察模型的空间化结构能力。
在生成动态循环骑行的 SVG 测试中,DeepSeek V4 展现了大幅提升,远超部分开源模型(如 Minimax 和 Muse)。要知道,之前的 DeepSeek 3.2 甚至完全无法理解并计算出这个任务。
GLM 5.1 在这方面的表现与 DeepSeek 相似甚至略胜一筹。
Gemini 虽然表现极佳,但可能在 SVG 方面有过专门的基准优化。
第三轮:UI 与网页设计创意测试
为了测试模型的创造力,我让它们生成了一些突破常规的 UI 界面:
1907 年世博会网站:Opus 4.7 对复古创意的理解最为到位,字体选择和整体氛围非常出色,排名第一。DeepSeek 紧随其后,击败了线条略显笨重的 GLM 5.1。而 Gemini 生成的结果则显得有些无聊。
收入恢复指挥中心仪表盘:Muse Spark 让人眼前一亮,生成的结果最像真实的专业仪表盘。Gemini 表现得十分具有功能性,而 DeepSeek 和 Opus 在这一局表现有些拉胯。
复古未来主义智能家居 OS:这是一项极具创意的挑战。Gemini 凭借极具触感和创意的设计胜出,Opus 也表现出色,两者包揽前两名。
垂直农场界面:DeepSeek 和 GLM 生成了类似游戏的交互环境,两者的表现非常接近,难分伯仲。

总结与展望
整体来看,相比于前代 V3.2,DeepSeek V4 实现了极其巨大的飞跃,这背后显然得益于全新的预训练和后训练技术。
虽然在生成稳定性和极致的创造力方面,它可能还没有完全超越目前最顶尖的几款闭源模型,但它已经成功赶上了第一梯队,综合体验与 GLM 5.1 相当。
最后,我强烈建议大家不要只看冷冰冰的跑分榜单!亲自去 Arena 平台上手体验这些模型,输入你常用的提示词,你才能真正感受到这些模型带来的震撼!
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105779