刚刚，DeepSeek V4 双版本正式上线！-工信会

> 自媒体 > （AI）人工智能 > 刚刚，DeepSeek V4 双版本正式上线！

刚刚，DeepSeek V4 双版本正式上线！

来源：机器之心Pro

2026-04-28 15:42:14

管理

就在刚刚，DeepSeek 官方正式宣布上线并开源「DeepSeek-V4 预览版」。

开源链接：https://huggingface.co/collections/deepseek-ai/deepseek-v4

根据官方的介绍，此次 DeepSeek-V4 在 Agent 能力、世界知识和推理性能上均实现国内与开源领域的领先。

技术报告链接：https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf

该系列包括 DeepSeek-V4-Pro（1.6T 参数，49B 激活）和 DeepSeek-V4-Flash（284B 参数，13B 激活），两者均支持一百万令牌的上下文长度，旨在提升超长上下文场景下的性能。该系列的关键创新包括：

1. 混合注意力架构：结合了压缩稀疏注意力（CSA）和高度压缩注意力（HCA），这一新方法显著减少了计算复杂度，提升了长上下文处理的效率，特别适用于涉及数百万令牌的任务。

2. 流形约束超连接（mHC）：增强了传统残差连接，提高了信号在层之间传播的稳定性。

3. Muon 优化器：设计用于加速收敛和提高训练稳定性，Muon 优化器显著提升了训练过程中的模型性能。

4. 训练和后训练管道：该模型在大量数据集（DeepSeek-V4-Flash 使用 32T 令牌，DeepSeek-V4-Pro 使用 33T 令牌）上进行了预训练，随后通过专门的训练和策略蒸馏进一步优化，确保它们在推理、编程和世界知识任务中表现出色。

5. 长上下文效率：这些模型在推理 FLOPs 和 KV 缓存大小上都实现了显著减少，使得处理一百万令牌成为可能。例如，DeepSeek-V4-Pro 在与前代模型 DeepSeek-V3 的对比中，FLOPs 降低了 73%，KV 缓存大小减少了 90%。

6. 评估结果：DeepSeek-V4-Pro-Max 版本在推理和知识任务上设定了新基准，超越了之前的开源模型，并接近一些专有模型的水平。DeepSeek-V4-Flash-Max 在更多高效的参数规模下，提供了相当的推理性能。

总的来说，DeepSeek-V4 系列在大规模语言模型的效率上迈出了重要一步，能够有效处理超长序列，从而为复杂的长时间跨度任务开辟了新的可能性。

在另一边，大家一直在关心 DeepSeek V4 是否使用国产算力，结果也终于揭晓。之前就有报道 DeepSeek V4 新模型，将采用华为技术公司设计的最新芯片，也是真的。

我们发现，昇腾 CANN 将在今晚 7 点直播 DeepSeek V4 在昇腾平台的首发。

值得一提的是，寒武纪在软硬一体生态中，已经完成基于 vLLM 推理框架完成对 285B DeepSeek-V4-flash 和 1.6T DeepSeek-V4-pro 的 Day 0 适配，适配代码已开源到 GitHub 社区。

DeepSeek 官方在发布推文最后说道：「不诱于誉，不恐于诽，率道而行，端然正己。」出自《荀子・非十二子》，是一种超然，任东西南北风的态度。

剩下的，就是大家亲自体验到 DeepSeek-V4 了！

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

国产顶级AI又进化了！DeepSeek V4预览版本正式上线｜热财经

1小时前

DeepSeek R1发布一年了，不卷功能、不融资、不着急，凭什么「硬控」硅谷

1小时前