DeepSeek V4 实测：从两个场景看看效果-工信会

> 自媒体 > （AI）人工智能 > DeepSeek V4 实测：从两个场景看看效果

DeepSeek V4 实测：从两个场景看看效果

来源：质取tech

2026-04-28 12:46:34

109

管理

DeepSeek V4 发布了预览版。1.6 万亿参数、100 万 token 上下文、MIT 开源协议、SWE-bench 80.6%——数据看着很强。

但数据是数据，能不能用是另一回事。我做了两个场景的实测，结论先放这：DeepSeek V4 是目前国产模型中最适合跑 Agent 任务的，没有之一。

先说背景：为什么测这个

我之前写过一篇文章，讲国产模型在 AI Coding 领域的真实差距。核心问题是：长链路任务容易断——改了 A 坏了 B，来回兜圈子，越改越乱。

DeepSeek V4 号称在 Agent 能力上大幅提升，而且提供了 Anthropic 兼容的 API 接口。这意味着可以直接把它接入 Claude Code 和我自己的 Agent 框架，在真实工作流里对比测试。

所以我设计了两个测试场景：

场景一：接入 Claude Code，替换后端模型，跑完整的多 Agent 开发流程场景二：接入我自己的 Agent 框架，测试长链路任务的指令遵循能力

场景一：替换 Claude Code 后端

配置方式

DeepSeek V4 提供了 Anthropic Messages 格式的兼容接口，接入非常简单。在 Claude Code 的配置里改几个环境变量就行：

ANTHROPIC_BASE_URL: "https://api.deepseek.com/anthropic"ANTHROPIC_DEFAULT_HAIKU_MODEL: "deepseek-v4-flash"ANTHROPIC_DEFAULT_OPUS_MODEL: "deepseek-v4-pro"ANTHROPIC_DEFAULT_SONNET_MODEL: "deepseek-v4-pro"CLAUDE_CODE_EFFORT_LEVEL: "max"

就这样，Claude Code 的所有请求都会走 DeepSeek 的 API，模型替换成 V4-Pro 和 V4-Flash。

测试内容

我跑了 Claude Code 里比较复杂的几个流程：

多 Agent 并行任务：同时启动权限守卫实现 spec 审查代码质量审查brainstorming Skill：从零开始新项目的头脑风暴，包括需求分析、平台选择、MVP 规划方案评估：自动提出 2-3 个实现方案，分析 trade-offs，推荐最优解

结果

能跑通。多 Agent 调度、Skill 调用、代码生成和审查都能正常工作。这本身就说明 V4 的 Anthropic 兼容度做得到位——这些流程对 API 格式的要求是很严格的，差一点都跑不起来。

但也有明显的问题：

速度是瓶颈

一个代码审查 Agent 任务跑了 41 分钟。同样的任务用 Claude Opus 通常在 5-10 分钟内完成。V4-Pro 的推理速度还需要优化，尤其是在长上下文场景下。当然，这是预览版，后续应该会改善。

费用

整个测试过程的 API 费用：

模型

请求数

Token 用量

V4-Pro

145 次

805 万

V4-Flash

41 次

69.7 万

总费用：¥15.73

875 万 token，15 块钱。同等用量如果走 Claude Opus API，远不止这个价。价格差距接近 50 倍。

场景二：接入自有 Agent 框架

第二个场景是把 V4 接入我自己写的 Agent 框架，测试长链路任务。

之前国产模型在我的 Agent 里最大的问题就是长链路断裂。一个需要 10 步才能完成的任务，执行到第 5、6 步就开始丢上下文、忘记之前的决策、不遵循预设的流程规范。

V4 的表现让我意外：

长链路任务能完美执行

在多步骤的开发任务中，V4-Pro 能够稳定地维持上下文，按照预设的流程一步步推进。不会像之前的国产模型那样，跑着跑着就「忘了自己在干嘛」。指令遵循能力非常强，给出的流程规范基本都能严格执行。

这是 V4 最让我惊喜的地方。以前我一直认为长链路 Agent 任务是国产模型的硬伤，但 V4 在这个维度上确实跨了一大步。100 万 token 的上下文窗口加上更强的指令遵循能力，让它在实际的 Agent 场景中变得真正可用。

V4 的核心参数

快速过一下 V4 的关键数据：

V4-Pro

V4-Flash

总参数

1.6 万亿

2840 亿

激活参数

49B

13B

上下文

100 万 token

SWE-bench

80.6%

输入价格

$1.74/百万 token

$0.14/百万 token

输出价格

$3.48/百万 token

$0.28/百万 token

开源协议

MIT

MoE（混合专家）架构，V4-Pro 虽然总参数 1.6 万亿，但每次推理只激活 49B，效率很高。价格只有 Claude Opus 的六分之一左右。

总结：能用，但看场景

两个场景测下来，我的结论是：

V4 做对了什么

Anthropic API 兼容 — 能直接接入 Claude Code 生态，降低迁移成本长链路指令遵循 — 多步骤 Agent 任务不再断裂，这是之前国产模型的最大短板价格极低 — 同等用量只有 Claude 的 1/50，适合大量 Agent 调用100 万上下文 — 大型项目的长链路任务有足够的空间MIT 开源 — 可以本地部署，数据不出境

V4 还差什么

推理速度 — 复杂任务耗时是 Claude 的 4-8 倍，预览版的通病，等正式版优化代码质量上限 — 能完成任务，但代码的精细度和 Claude Opus 还有差距

适用建议

高价值、低容错的核心功能 → 继续用 Claude Opus大量重复性的 Agent 任务、代码审查、文档生成 → V4-Pro 性价比极高子 Agent / 辅助任务 → V4-Flash 几乎零成本数据安全敏感场景 → V4 开源本地部署

DeepSeek V4 不是来替代 Claude 的，但它给了我们一个真正可用的性价比方案。尤其是在 Agent 框架中，长链路任务终于不再是国产模型的禁区。

这是国产模型第一次让我在 Agent 场景里感到「能用」，而不是「凑合用」。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4实测：别急着封神，也别急着唱衰

1个月前

实测DeepSeek V4：百万上下文+成本暴跌73%，国产大模型硬刚GPT5.5

1个月前