4月24日,DeepSeek 终于是把全网都期待的新模型 DeepSeek V4 发布了。

DeepSeek-V4 模型按大小分为两个版本,DeepSeek-V4-Flash 和 DeepSeek-V4-Pro。
如果你想使用开发者API,可以通过修改 model_name 为 deepseek-v4-pro 或 deepseek-v4-flash 即可调用。

更值得一说的是,V4 开创了一种全新的注意力机制,大幅度降低了对计算和显存的需求。使得这两个模型都能支持 100 万 token 的上下文长度,装的多,跑的快,还省钱,DeepSeek 把它变成了所有官方服务的标配。

这就意味着,使用 AI 的时候它能更好的记住历史记忆,记住更多的细节,不会出现条理不清晰的情况。
就好比如,你把《三体》喂给 AI,然后让它分析整本小说,它能更好的输出正确的分析结果,不容易出现胡说八道的情况。
然而就是这么强且便宜的模型,V4 延期了半年。
延期的时间里,外界是充斥着各种猜测,但我想,现在是有答案了。他们把整套系统从英伟达的CUDA生态搬到了华为的昇腾芯片上面,实现国产替代。
这事可不是那么的简单,基本上就是重构了一套新的系统。DeepSeek 在之前是用极少的算力就能达到很高的水平,是因为对英伟达GPU底层做了极致的优化,转到华为后,基于英伟达GPU的所有工程积累都将作废,底层代码、调度的逻辑、工程体系全部推倒重建,这所需要的时间太多了。
而且还涉及到万亿级参数模型的训练,系统调度跟通信的压力在昇腾上还是比较难搞,英伟达还能靠 NVLink 实现单节点间TB/s 级别的带宽传输。
所以,DeepSeek专门开发了一套叫MegaMoE的细粒度专家并行方案,把通信与计算整合进单一流水线,实现通信与计算的重叠执行,在通用推理任务中实现了1.50到1.73倍的加速。
可惜的是目前 V4 还是不支持多模态,无法跟豆包、千问、ChatGpt 等 AI 一样能识别视频跟图片。
这应该是他们团队以后迭代的方向吧,我都已经开始期待 DeepSeek V5 了。
图片、资料来源:DeepSeek
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105640