跳票两月、重构四大底层技术：一线从业者拆解DeepSeek V4真实体验-工信会

> 自媒体 > （AI）人工智能 > 跳票两月、重构四大底层技术：一线从业者拆解DeepSeek V4真实体验

跳票两月、重构四大底层技术：一线从业者拆解DeepSeek V4真实体验

来源：读史悦之

2026-05-02 09:13:57

172

管理

“范式变化这个词在AI圈子被用的有点叙事过载了。”

在原本计划的春节首发时间点过去两个多月后，DeepSeek V4终于正式发布。对于这一代模型，外界有着极高的关注度，但也伴随着诸多疑问：为何经历了如此长时间的推迟？在实际应用中表现如何？

在使用V4及同类最新模型解决同一个问题时，模型消耗的Token（词元）数量比以前大了很多。从业者将其形容为“拿着高压水枪浇花”。这并非模型本身的缺陷，而是模型忠实反映了其受到的强化学习训练目标：模型倾向于用更长的推理步骤来确保拿到正确的最终奖励。虽然V4通过底层优化极大地降低了单Token的生成成本（其Flops仅占V3.2的27%，KV缓存仅占10%），但解决单一问题总时长的增加，表明整个行业需要重新思考：在追求极长上下文的同时，如何提高模型利用上下文的实际效率。

消失的训练成本与极限的激活参数

在V3发布时，官方曾明确披露其最后一次训练成本为557万美元。但在V4的技术报告中，这一数据消失了。

从业者分析认为，不再主动公开成本，标志着研发团队不再需要依靠单一的“低价”标签来定义自身。最终模型最后一次的训练跑通，仅仅是全部成本的冰山一角。在此之前，大量的前沿技术探索、对比实验、人力以及数据筛选所消耗的资金，往往是最终一次训练成本的几十倍。

与此同时，报告中披露了另一个值得行业关注的数据：V4 Pro的总参数达到了1.6万亿（1.6T），但其在处理任务时的激活参数仅为500亿左右，激活比例刚刚超过3%。

评测危机与基础生态建设

在算力生态方面，V4的技术报告中明确提到，其在推理层面原生支持了华为昇腾等国产芯片，并完成了技术验证。在底层算子编写上，它也大量采用了国内发展起来的开源编译语言（如Triton和Talon），这极大地降低了新算法开发高性能内核的边际成本。

面对近期密集发布的各大模型，业内也面临着一种“评测危机”（Evaluation Crisis）。现有的基准测试（Benchmark）一旦发布，往往在半年到一年内就会被各家模型“刷满”至90分以上。然而，在实际应对复杂的长程对话或代码合并等真实场景时，用户依然能感受到明显的差异。无法准确评估，就无法指引正确的优化方向。如何建立针对智能体（Agent）和多步复杂任务的更可靠评测体系，将是全行业下一步的重心。

纵观V4的发布，它并没有在“原生多模态”等概念上过度着墨，而是极其务实地选择了深挖文本处理与底层计算效率。正如此次发布时官方引用的《荀子》名言：“率道而行，端然正己……不囿于誉，不恐于谤。” 顶住延迟发布的内外压力，将长上下文、极低激活比例、极低单Token成本的工程配方彻底跑通并验证，DeepSeek V4确立了开源大模型世界的一项全新工业标准。

结语

随着各大模型上下文长度的不断突破，您在日常使用AI时，是否也遭遇过模型为了完成任务而“过度啰嗦”的情况？对于未来大模型的发展，您更看重其“反应速度与成本”，还是更期待其具备真正独立完成复杂工作的“智能体”能力？欢迎在评论区分享您的真实体验。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

手把手教学！DeepSeek V4免费用，几分钟就能部署好

1小时前

保姆级教程！DeepSeek V4免费用，几分钟就能部署好

1小时前