又被DeepSeek V4刷屏了吧,但toB老司机们更开心的是:歇了大半年的DeepSeek一体机又可以搞起来了。
但先别忙着高兴,V4对一体机的要求有点变态。

要求有多高?先给结论吧↓
跑Flash版:4卡高显存GPU起步。
跑Pro版满血:8×B200或者16×H200起步。
跑Pro满血 百万Token 多并发Agent PD分离部署:建议32卡以上超节点。
以上均以N家为例,国产卡下面会逐个探讨。
这个配置是怎么算出来的?我们先交代一下基本面↓
DeepSeek V4有两个版本:
DeepSeek-V4-Flash:284B 总参数,13B 激活参数。
DeepSeek-V4-Pro:1.6T 总参数,49B 激活参数。
两个都是 MoE 模型,总参数很大,但每次只激活一部分专家。
而且,这次的放出来的 V4开源版版本还有个关键设计,采用FP4 FP8混合精度。
①最占空间的专家层(MoE experts)用FP4精度。
②对精度更敏感的注意力和稠密层(attention/dense)用精度更高的FP8。
为了帮助大家降低显存寻求,DeepSeek这次也是拼了。

Pro版如果全用FP8,大约需要1.6TB显存。
现在DeepSeek把最吃显存的MoE专家层压到FP4了,实际权重压力能降到1TB级别。
所以粗略估算:
V4-Flash权重占用:约180GB–260GB。
V4-Pro权重占用:约 1.0TB–1.4TB。
但很多老卡包括H20/H200以及很多国产卡,是不支持FP4精度的,还得用FP8,所以老卡要按照满额。
而且,真正跑生产,还要加KV Cache、运行时 buffer、通信 buffer、并发余量、推理框架开销……,这一揽子都不是省灯的油。
尤其Pro版还要百万上下文,上下文越长,KV Cache越吃资源。

https://docs.sglang.io/cookbook/autoregressive/DeepSeek/DeepSeek-V4
DeepSeek-V4-Flash:
单节点4张H200/B200/GB200/GB300都可以跑。
据此延展:4×141GB级别GPU,比如H20,理论可跑。
同时,8×H200/H20/B200,适合一定并发。
DeepSeek-V4-Pro:
8×B200或者4×GB300
或者16×H200,用两台8卡机。(毕竟H200不支持FP4)
这是跑Pro的起步线,理论上16张141G显存版本的H20也ok。
如果是生产环境,长上下文、Think Max、多并发 Agent,那配置要求会进一步拉高:
16×B200:更稳。
32×B200:适合高并发和长上下文。
GB200 NVL72:旗舰满血方案。
多说一句,另一家推理引擎vLLM给出了更复杂的部署环境和对应配置,大家可以自己去看,(包括pd分离等)。

官方说的是超节点,我们算算跑起来需要几张卡。
公开报道显示,华为Ascend 950PR,配112GB HBM,内存带宽约 1.4TB/s,互联约2TB/s,并具备 1.56 PFLOPS FP4能力(菊厂这个MXFP4,比普通FP4精度更好)。
划重点,112GB HBM,MXFP4支持,这很夯,算一下要几张卡↓
16×Ascend 950PR:Pro 起步。
24×Ascend 950PR:Pro 更稳。
32×Ascend 950PR:百万 Token、多并发 Agent。
相信,菊厂和DeepSeek暗通款曲已久,适配和优化应该比较到位,接下来昇腾DS超节点怕是有一波大行情。
05 / 阿里真武810E如何?阿里这款芯片公开规格里比较明确的是:96GB HBM2e、700GB/s 片间互联。
但目前没有看到明确的FP4/FP8官方精度表,从对标H20的宣传看,大概率是支持FP8的。
所以,算起来与昆仑芯类似,Pro满血版用32卡就能稳定跑。但阿里系的超节点规格较大,比如磐久128,云商自用可以,可能不太适合一般规模的企业落地。

另外,寒王也宣布了Day0支持DeepSeek V4,如果以其思元MLU590为例,单卡显存96GB,FP8精度。
推算起来情况与百度和阿里的芯片也基本相当,也是32卡可以稳定跑Pro的水准。
接下来,DeepSeek V4 Pro满血版的企业本地化落地,传统8卡机恐怕靠边站了,要么组团,要么让超节点上位!

所以,你准备好了吗?
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体105886