“范式变化这个词在AI圈子被用的有点叙事过载了。”
在原本计划的春节首发时间点过去两个多月后,DeepSeek V4终于正式发布。对于这一代模型,外界有着极高的关注度,但也伴随着诸多疑问:为何经历了如此长时间的推迟?在实际应用中表现如何?

在使用V4及同类最新模型解决同一个问题时,模型消耗的Token(词元)数量比以前大了很多。从业者将其形容为“拿着高压水枪浇花”。这并非模型本身的缺陷,而是模型忠实反映了其受到的强化学习训练目标:模型倾向于用更长的推理步骤来确保拿到正确的最终奖励。虽然V4通过底层优化极大地降低了单Token的生成成本(其Flops仅占V3.2的27%,KV缓存仅占10%),但解决单一问题总时长的增加,表明整个行业需要重新思考:在追求极长上下文的同时,如何提高模型利用上下文的实际效率。
消失的训练成本与极限的激活参数在V3发布时,官方曾明确披露其最后一次训练成本为557万美元。但在V4的技术报告中,这一数据消失了。
从业者分析认为,不再主动公开成本,标志着研发团队不再需要依靠单一的“低价”标签来定义自身。最终模型最后一次的训练跑通,仅仅是全部成本的冰山一角。在此之前,大量的前沿技术探索、对比实验、人力以及数据筛选所消耗的资金,往往是最终一次训练成本的几十倍。
与此同时,报告中披露了另一个值得行业关注的数据:V4 Pro的总参数达到了1.6万亿(1.6T),但其在处理任务时的激活参数仅为500亿左右,激活比例刚刚超过3%。
评测危机与基础生态建设在算力生态方面,V4的技术报告中明确提到,其在推理层面原生支持了华为昇腾等国产芯片,并完成了技术验证。在底层算子编写上,它也大量采用了国内发展起来的开源编译语言(如Triton和Talon),这极大地降低了新算法开发高性能内核的边际成本。
面对近期密集发布的各大模型,业内也面临着一种“评测危机”(Evaluation Crisis)。现有的基准测试(Benchmark)一旦发布,往往在半年到一年内就会被各家模型“刷满”至90分以上。然而,在实际应对复杂的长程对话或代码合并等真实场景时,用户依然能感受到明显的差异。无法准确评估,就无法指引正确的优化方向。如何建立针对智能体(Agent)和多步复杂任务的更可靠评测体系,将是全行业下一步的重心。

纵观V4的发布,它并没有在“原生多模态”等概念上过度着墨,而是极其务实地选择了深挖文本处理与底层计算效率。正如此次发布时官方引用的《荀子》名言:“率道而行,端然正己……不囿于誉,不恐于谤。” 顶住延迟发布的内外压力,将长上下文、极低激活比例、极低单Token成本的工程配方彻底跑通并验证,DeepSeek V4确立了开源大模型世界的一项全新工业标准。
结语随着各大模型上下文长度的不断突破,您在日常使用AI时,是否也遭遇过模型为了完成任务而“过度啰嗦”的情况?对于未来大模型的发展,您更看重其“反应速度与成本”,还是更期待其具备真正独立完成复杂工作的“智能体”能力?欢迎在评论区分享您的真实体验。
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体106250