> 自媒体 > (AI)人工智能 > 昇腾芯片支撑万亿模型训练:推理成本为何能低至GPT-4的1/70?
昇腾芯片支撑万亿模型训练:推理成本为何能低至GPT-4的1/70?
来源:和AI聊了一下
2026-05-28 16:39:29
82
管理

2026年4月,当1.6万亿参数的DeepSeek V4-Pro模型发布时,一个关键数据震撼了业界:它在华为昇腾平台上的推理成本,仅为GPT-4的1/70。这不仅仅是价格战,更意味着一个技术拐点——全球首个完全脱离英伟达CUDA生态的万亿参数模型,在中国自主的芯片上跑通了。

过去,训练一个万亿参数模型,好比指挥一场全球级别的交响乐。

你需要EFLOPS级(每秒百亿亿次)的算力,相当于数十万台高性能电脑同时工作;需要解决数千张芯片间高速通信的延迟瓶颈,否则数据传输的“堵车”会让算力空转;还需要突破**“内存墙”**,即如何把海量模型参数和中间计算结果塞进有限的芯片内存里。

面对这些近乎不可能的任务,昇腾芯片给出的答案不是“造一颗更强的单核芯片”去硬拼,而是换了一种解题思路。

单打变群殴,用军团战术弥补单兵差距

当单颗芯片的制程工艺暂时无法超越对手时,昇腾选择了一条差异化的路:超节点集群。

传统做法,是把成千上万台独立的服务器(每台装8张GPU)用网线连起来,组成一个计算集群。这就像把无数栋“连排别墅”用马路连接,数据在各个“别墅”间搬运,需要频繁“出门”、“上路”,绕远路且容易堵车。

昇腾的超节点,则是把8192张芯片高密度集成到一个“巨型机柜”里,并通过自研的灵衢统一总线,让CPU、NPU、内存等所有部件像在同一块主板上的不同插槽一样,用一条高速内部通道直接通信,消除了协议转换的开销。

这就好比盖了一栋“摩天大楼”,楼内所有房间通过高速电梯直达,效率天差地别。

这种架构带来了质变:

算力规模:Atlas 950超节点集群的FP8算力达到8 EFLOPS,超过了英伟达NVL144系统的6.7 EFLOPS。扩展效率:从单卡扩展到8192卡,其算力增长的线性度超过90%,意味着“加一倍卡,能获得九成以上的算力提升”,避免了集群规模扩大后效率急剧下降的难题。修“超高速电梯”,把通信延迟压进毫秒级

在超大规模集群中,通信延迟是隐形杀手。一张卡算完了,要等其他数千张卡的数据同步,等待时间可能比计算时间还长。

昇腾的灵衢协议,就是为了解决这个问题。它实现了跨机通信时延低于50毫秒。这个数字的意义在于,它让数千张卡在协同工作时,感觉像是一张大芯片上的不同核心,而非隔着遥远的网络。

你可以把它理解为,在“摩天大楼”里修建了一套无比精准的气动管道物流系统。数据被打包成标准“胶囊”,在预设的管道中以接近物理极限的速度点对点直达,无需经过复杂的路由和排队。正是这种“总线级”的互联能力,让8192张卡的协同成为可能,而不是各自为战。

给数据“瘦身”,用4位精度扛起万亿模型

万亿参数模型最直观的挑战是“装不下”。一个700亿参数的模型,用传统精度可能需要140GB显存,远超单卡容量。

昇腾芯片从硬件底层原生支持FP4、FP8等低精度格式。这就像搬家时,把笨重的实木家具拆解成标准化、可压缩的板材(FP4数据),运输效率瞬间提升,到了目的地再快速组装还原(计算)。

带来的效果是革命性的:

显存占用暴降:使用FP4精度,可以将一个700亿参数模型的显存占用降低75%,从140GB压缩到仅需35GB。长上下文处理:处理百万字长文本时,其显存占用可降至传统方法的10%。

更重要的是,昇腾950PR芯片通过Vector-Cube共享存储等设计,让计算单元能直接复用数据,减少了在芯片内部搬运数据的“跑腿”开销,进一步把单卡FP4算力推高到1.56 PFlops,达到英伟达H20芯片的2.87倍。

从“能用”到“好用”,一场全产业链的协同突围

技术的突破最终要经过应用的检验。昇腾的这套体系,已经不止于实验室演示:

DeepSeek V4:完成了从CUDA到华为CANN框架的“万米高空换发动机”,重写了超过40万个底层算子,在昇腾平台上实现了推理速度35倍的提升。美团:基于全国产昇腾算力集群,低调训练出能力对标GPT-4的万亿参数大模型,验证了国产算力在核心商业场景的“工业可用性”。科大讯飞:在昇腾910B集群上将大模型训练效率从开箱的30%,提升至84%(长思维链)和93%(MoE模型),证明了持续迭代的可能。

所以,昇腾芯片支撑万亿大模型的逻辑,不是某个单项技术的“奇迹”,而是一套系统性的工程哲学:用超节点集群的“军团战术”弥补单卡算力,用灵衢协议打造“超高速内部路网”破解通信延迟,用硬件级低精度计算给数据“极致瘦身”突破内存墙。

最终,通过从芯片、互联协议到软件框架的全栈协同,将不可能变成了可能。

这标志着,国产AI算力已经走过了“从无到有”的适配阶段,开始进入“从有到优”、定义自身技术路线和产业标准的新赛道。

0
点赞
赏礼
赏钱
0
收藏
免责声明:本文仅代表作者个人观点,与本站无关。其原创性以及文中陈述文字和内容未经本网证实,对本文以及其中全部或者 部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺,请读者仅作参考,并请自行核实相关内容。 凡本网注明 “来源:XXX(非本站)”的作品,均转载自其它媒体,转载目的在于传递更多信息,并不代表本网赞同其观点和对 其真实性负责。 如因作品内容、版权和其它问题需要同本网联系的,请在一周内进行,以便我们及时处理。 QQ:617470285 邮箱:617470285@qq.com
相关文章
OpenAI弃跑分竞赛 升级GPT-5.3用户体验 开启AI新方向
你有没有过这种体验?用ChatGPT问个简单问题,它先给你绕三分钟“大局观..
GPT5.5用了一个月踩了五个坑,说点别人不会告诉你的
AI工具平台推荐:c.kulaai.cn,聚合GPT-5.5、DeepSeek、Gemini 3.1 Pro等..
语音助手「智商滑铁卢」:当GPT开口说话,准确率从74.8%跌到6.1%..
想象这样一个场景:同一个 AI 模型,用文字交流时对答如流,一旦开口说话..
GPT-5.2提前泄露?今夜,OpenAI要拿Gemini 3祭天
【导读】刚刚,GPT-5.2突袭上线Cursor,专狙Gemini 3!眼看OpenAI和谷歌..
Qwen3.7-Max、GPT-5.5、Claude 4.6:谁才是真正的生产力工具?..
一堆新模型发布时,话术都很像。更聪明、更快、更 agentic,几乎成了标配..
这套题,GPT-5.5、Opus 4.7加起来没考到「1分」,人类却拿了满分100?..
来源:市场资讯(来源:机器之心)机器之心编辑部在大模型「卷生卷死」的..
GPT-5.4、Gemini3.1Pro、Grok-4.2、Claude4:嵌入式开发最强辅助..
本文所有实测数据均基于国内可直连的AI聚合测试平台库拉c.kulaai.cn完成..
GPT-5.3上线Codex,OpenAI回应Claude新模型只用了15分钟
火星撞地球,新模型大战!Claude Opus 4.6发布仅仅15分钟,OpenAI也甩出..
OpenAI欲打造AI行业的“苹果生态”?上线GPT Store,定制个人GPT成为现实,..
每经记者:文巧 每经编辑:李孟林一场发布会的时间,OpenAI再次轻松颠覆..
关于作者
阳光下的微笑..(普通会员)
文章
2029
关注
0
粉丝
0
点击领取今天的签到奖励!
签到排行

成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体110980

0
0
分享
请选择要切换的马甲:

个人中心

每日签到

我的消息

内容搜索