DeepSeek-V3.2 技术报告解读-工信会

> 自媒体 > （AI）人工智能 > DeepSeek-V3.2 技术报告解读

DeepSeek-V3.2 技术报告解读

来源：人人都是产品经理

2025-12-11 09:28:17

167

管理

开源大模型领域迎来重磅突破！DeepSeek 推理能力追平 GPT-5-High，高算力版更是拿下 IMO 和 IOI 金牌，核心得益于 DSA 稀疏注意力机制、超预训练 10% 的后训练投入及大规模合成数据三大创新。这篇报告解读深度拆解其技术逻辑与性能表现，揭秘开源模型的突围路径。

这是一篇报告解读，原文是《DeepSeek-V3.2: Pushing the Frontier of Open Large Language Models》

先说结论

DeepSeek-V3.2在推理能力上追平 GPT-5-High，在部分指标上超越DeepSeek-V3.2-Speciale（高算力版）在 2025 年 IMO 和 IOI 拿了金牌，推理能力接近 Gemini-3.0-Pro

怎么做到的？三件事

DSA（DeepSeek Sparse Attention）一种稀疏注意力机制，大幅降低长上下文的计算成本后训练加码把后训练的计算预算提到预训练的 10% 以上大规模合成数据生成了 1，800 个环境、85，000 个任务，全是合成的

下面一个一个说

DSA：把注意力从 O(L²) 降到 O(Lk)

传统的 Transformer 注意力机制是 O(L²) 复杂度，L 指的是序列长度

简单说一下

计算机领域，通常用 O(x) 来说明复杂度：比如 O(L) 的含义是随着 L 增加，则复杂度线性增加；而 O(L²) 的意思是按长度的平方倍增加。文本长度翻 2 倍，计算量翻 4 倍；长度翻 10 倍，计算量翻 100 倍

这长上下文场景中，这个复杂度就成了大问题，推理慢，后训练也很难做所以你很少会见到超过 128k 的上下文（ GPT-3.5 最早默认 4k 上下文）

DeepSeek 的解决方案是 DSA，核心思路是：并非每个 token 都看全部上下文，只看最相关的 k 个 token

这样计算量就变成 O(Lk)，k 是个固定值（2048），不再随文本长度爆炸式增长

具体数据代码智能体 24,667 个任务（真实环境，提取的提示）

搜索智能体 50,275 个任务（真实环境，合成的提示）

通用智能体 4,417 个任务（合成环境，合成提示）

代码解释器 5,908 个任务（真实环境，提取的提示）

合成流程，很有意思

1. 给定一个任务类型（比如旅行规划），agent 先用 bash 和搜索工具从网上拉数据，存到沙箱数据库

2. Agent 合成一套任务相关的工具函数

3. Agent 先提出一个简单任务，写好解决方案和验证函数

4. 迭代增加任务难度，同时更新解决方案和验证函数

5. 如果现有工具不够用，agent 会自动扩展工具集

最终得到了 1,827 个环境，4,417 个任务

有个 Trip Planning 的例子

从杭州出发的三天旅行，要求不重复城市/酒店/餐厅/景点，第二天的预算有复杂的条件约束…

任务很难解，但验证很简单——只要检查所有约束是否满足

这类「难解易验」的任务特别适合 RL

合成数据真的有用吗？

论文做了消融实验用 V3.2-SFT 只在合成的通用智能体数据上做 RL，测试在 Tau2Bench、MCP-Mark、MCP-Universe 上的效果

结果是：显著提升

作为对照，只在代码和搜索环境上做 RL，这三个 benchmark 上没有提升

简而言之，这么做，确实带来了泛化能力

Thinking in Tool-Use

让推理和工具调用融合，是 v3.2 在工程上的关键设计

DeepSeek-R1 证明了「thinking」对解决复杂问题很有帮助

但 R1 的策略是：第二轮消息到来时，丢弃之前的推理内容

这在工具调用场景下很浪费——每次工具返回结果，模型都要重新推理一遍

DeepSeek-V3.2 的设计是：

只有新的用户消息到来时才丢弃推理内容如果只是工具返回结果，保留推理内容丢弃推理内容时，工具调用历史保留

注意

Roo Code、Terminus 这类用「用户消息」模拟工具交互的框架，无法享受这个优化；论文建议这类框架用 non-thinking 模式

Cold-Start

怎么让模型学会「边推理边调工具」，这个能力需要教

DeepSeek 的做法是设计专门的 system prompt：

告诉模型可以在标签内多次调用工具最多 20 次最终答案不能包含工具调用

虽然这样训练出来的模式一开始不太稳定，但偶尔能产生正确的轨迹

有了这些种子数据，后续的 RL 就能持续优化

结果对比

到这里，我们看一下模型的性能，自己看图，不赘述了

这个是 DeepSeek-V3.2 的

这个是 DeepSeek-V3.2-Speciale 的竞赛成绩

需要说明的是：Token 效率，是 DeepSeek-V3.2 的一个短板

举个例子，在 Codeforces 中，Gemini-3.0-Pro 用 22k tokens 拿 2708 分，DeepSeek-V3.2 用 42k tokens 才拿 2386 分，Speciale 版本用 77k tokens 拿 2701 分

Speciale 版本为了达到更高性能，输出 token 数明显更多

具体的看这张图

其他：上下文管理策略

搜索智能体场景有个问题：经常撞到 128K 的上下文限制

DeepSeek 试了几种策略：

Summary：超限后总结轨迹，重新开始Discard-75%：丢弃前 75% 的工具调用历史Discard-all：丢弃所有工具调用历史（类似 Anthropic 的 new context tool）Parallel-fewest-step：并行采样多个轨迹，选步数最少的

结果有点反直觉：最简单的 Discard-all 效果最好，BrowseComp 从 53.4% 提升到 67.6%Summary 效率最低，虽然也能提升性能

还差什么

DeepSeek 团队坦诚说了三个局限：

世界知识不够丰富训练算力有限，知识广度不如 Gemini-3.0-Pro计划未来扩大预训练规模Token 效率低达到同样输出质量，需要生成更多 token需要优化推理链的「智能密度」这个上文提了最难的任务还有差距在最顶尖的复杂任务上，和 Gemini-3.0-Pro 还有差距

我觉得吧，这三个局限其实指向同一个问题：算力预训练算力不够，知识就不够广后训练算力不够，token 效率就上不去基础模型能力不够，最难的任务就做不好

但反过来说，DeepSeek 在有限算力下能做到这个程度，也或许说明…技术路线是对的？

总结

这篇论文，大致说了这三件事儿

DSA 解决了效率问题，让大规模后训练成为可能大规模后训练，带来了更高的训练回报大规模合成数据，让智能体能力的泛化成为可能

三件事串起来，让 DeepSeek v3.2，在推理能力上追平了 GPT-5

本文由人人都是产品经理作者【赛博禅心】，微信公众号：【赛博禅心】，原创/授权发布于人人都是产品经理，未经许可，禁止转载。

题图来自Unsplash，基于 CC0 协议。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

教师必看！DeepSeek超全使用指南

4个月前

中国AI技术迎突破，DeepSeekV3.2创新面世，成本仅为巨头三分之一

4个月前