> 自媒体 > (AI)人工智能 > DeepSeek V4 实测:从两个场景看看效果
DeepSeek V4 实测:从两个场景看看效果
来源:质取tech
2026-04-28 12:46:34
90
管理

DeepSeek V4 发布了预览版。1.6 万亿参数、100 万 token 上下文、MIT 开源协议、SWE-bench 80.6%——数据看着很强。

但数据是数据,能不能用是另一回事。我做了两个场景的实测,结论先放这:DeepSeek V4 是目前国产模型中最适合跑 Agent 任务的,没有之一。

先说背景:为什么测这个

我之前写过一篇文章,讲国产模型在 AI Coding 领域的真实差距。核心问题是:长链路任务容易断——改了 A 坏了 B,来回兜圈子,越改越乱。

DeepSeek V4 号称在 Agent 能力上大幅提升,而且提供了 Anthropic 兼容的 API 接口。这意味着可以直接把它接入 Claude Code 和我自己的 Agent 框架,在真实工作流里对比测试。

所以我设计了两个测试场景:

场景一:接入 Claude Code,替换后端模型,跑完整的多 Agent 开发流程场景二:接入我自己的 Agent 框架,测试长链路任务的指令遵循能力

场景一:替换 Claude Code 后端

配置方式

DeepSeek V4 提供了 Anthropic Messages 格式的兼容接口,接入非常简单。在 Claude Code 的配置里改几个环境变量就行:

ANTHROPIC_BASE_URL: "https://api.deepseek.com/anthropic"ANTHROPIC_DEFAULT_HAIKU_MODEL: "deepseek-v4-flash"ANTHROPIC_DEFAULT_OPUS_MODEL: "deepseek-v4-pro"ANTHROPIC_DEFAULT_SONNET_MODEL: "deepseek-v4-pro"CLAUDE_CODE_EFFORT_LEVEL: "max"

就这样,Claude Code 的所有请求都会走 DeepSeek 的 API,模型替换成 V4-Pro 和 V4-Flash。

测试内容

我跑了 Claude Code 里比较复杂的几个流程:

多 Agent 并行任务:同时启动权限守卫实现 spec 审查 代码质量审查brainstorming Skill:从零开始新项目的头脑风暴,包括需求分析、平台选择、MVP 规划方案评估:自动提出 2-3 个实现方案,分析 trade-offs,推荐最优解

结果

能跑通。 多 Agent 调度、Skill 调用、代码生成和审查都能正常工作。这本身就说明 V4 的 Anthropic 兼容度做得到位——这些流程对 API 格式的要求是很严格的,差一点都跑不起来。

但也有明显的问题:

速度是瓶颈

一个代码审查 Agent 任务跑了 41 分钟。同样的任务用 Claude Opus 通常在 5-10 分钟内完成。V4-Pro 的推理速度还需要优化,尤其是在长上下文场景下。当然,这是预览版,后续应该会改善。

费用

整个测试过程的 API 费用:

模型

请求数

Token 用量

V4-Pro

145 次

805 万

V4-Flash

41 次

69.7 万

总费用:¥15.73

875 万 token,15 块钱。同等用量如果走 Claude Opus API,远不止这个价。价格差距接近 50 倍。

场景二:接入自有 Agent 框架

第二个场景是把 V4 接入我自己写的 Agent 框架,测试长链路任务。

之前国产模型在我的 Agent 里最大的问题就是长链路断裂。一个需要 10 步才能完成的任务,执行到第 5、6 步就开始丢上下文、忘记之前的决策、不遵循预设的流程规范。

V4 的表现让我意外:

长链路任务能完美执行

在多步骤的开发任务中,V4-Pro 能够稳定地维持上下文,按照预设的流程一步步推进。不会像之前的国产模型那样,跑着跑着就「忘了自己在干嘛」。指令遵循能力非常强,给出的流程规范基本都能严格执行。

这是 V4 最让我惊喜的地方。以前我一直认为长链路 Agent 任务是国产模型的硬伤,但 V4 在这个维度上确实跨了一大步。100 万 token 的上下文窗口加上更强的指令遵循能力,让它在实际的 Agent 场景中变得真正可用。

V4 的核心参数

快速过一下 V4 的关键数据:

V4-Pro

V4-Flash

总参数

1.6 万亿

2840 亿

激活参数

49B

13B

上下文

100 万 token

100 万 token

SWE-bench

80.6%

-

输入价格

$1.74/百万 token

$0.14/百万 token

输出价格

$3.48/百万 token

$0.28/百万 token

开源协议

MIT

MIT

MoE(混合专家)架构,V4-Pro 虽然总参数 1.6 万亿,但每次推理只激活 49B,效率很高。价格只有 Claude Opus 的六分之一左右。

总结:能用,但看场景

两个场景测下来,我的结论是:

V4 做对了什么

Anthropic API 兼容 — 能直接接入 Claude Code 生态,降低迁移成本长链路指令遵循 — 多步骤 Agent 任务不再断裂,这是之前国产模型的最大短板价格极低 — 同等用量只有 Claude 的 1/50,适合大量 Agent 调用100 万上下文 — 大型项目的长链路任务有足够的空间MIT 开源 — 可以本地部署,数据不出境

V4 还差什么

推理速度 — 复杂任务耗时是 Claude 的 4-8 倍,预览版的通病,等正式版优化代码质量上限 — 能完成任务,但代码的精细度和 Claude Opus 还有差距

适用建议

高价值、低容错的核心功能 → 继续用 Claude Opus大量重复性的 Agent 任务、代码审查、文档生成 → V4-Pro 性价比极高子 Agent / 辅助任务 → V4-Flash 几乎零成本数据安全敏感场景 → V4 开源本地部署

DeepSeek V4 不是来替代 Claude 的,但它给了我们一个真正可用的性价比方案。尤其是在 Agent 框架中,长链路任务终于不再是国产模型的禁区。

这是国产模型第一次让我在 Agent 场景里感到「能用」,而不是「凑合用」。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
关于作者
快乐的老范..(普通会员)
文章
1911
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105789

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索