混元Hy3：2950亿参数只激活210亿，成本为何能不到GPT-4的5%-工信会

> 自媒体 > （AI）人工智能 > 混元Hy3：2950亿参数只激活210亿，成本为何能不到GPT-4的5%

混元Hy3：2950亿参数只激活210亿，成本为何能不到GPT-4的5%

来源：讲个技术你别睡

2026-05-12 18:25:14

118

管理

一位独立开发者，在制作一个教育智能体时遇到了难题。这个智能体需要处理长文档、生成代码、解答复杂问题。当他全程调用海外某旗舰模型时，发现成本高得吓人——处理一次任务消耗的Token（文本单元）成本，足以让这个业余项目难以为继。

这是AI进入Agent（智能体）时代后，每个开发者和企业都面临的真实困境：模型要足够聪明，能处理复杂任务；又要足够便宜，用得起。这看似是一个“不可能三角”。

2026年4月，腾讯发布的混元Hy3预览版，给出了一个不同的答案。它没有去追求万亿参数的极限，而是做了一个“反常识”的设计：总参数高达2950亿，但每次推理，只激活其中210亿参数。

这就像一个拥有庞大后厨团队的顶级餐厅，但每次只根据客人的点单，派出最擅长那道菜的几位厨师。

这个“餐厅”如何运作，关键是MoE架构

MoE，混合专家架构，是混元Hy3实现平衡的核心。你可以把它理解为一个智能化的餐厅点菜系统。

总厨团队（295B总参数）：餐厅拥有一个由2950亿“神经元”组成的庞大后厨，覆盖了从川菜、粤菜到分子料理的所有知识。这确保了餐厅有能力处理任何复杂的“菜品”（任务），比如解答清华数学博士考题。按需派单（21B激活参数）：当客人（用户）提出一个具体问题，比如“写一段Python代码处理数据”，点菜系统（路由网络）不会唤醒所有厨师。它只会精准地呼叫最擅长“Python”和“数据处理”的几位专家厨师（约210亿参数）来工作。快慢思考融合（动态决策）：如果客人只是问“今天天气如何”，系统会让擅长快速应答的“快思考”厨师立刻处理；如果客人要“分析一份20万字的财报并写总结”，系统则会启动“慢思考”厨师进行深度推理。这个决策过程是模型自动完成的，无需用户干预。

这种设计的结果是，你享受的是顶级餐厅（295B模型）的菜品质量，但只需要支付大排档（21B模型）级别的人工成本。根据官方数据，这种按需激活的机制，让混元Hy3的整体推理效率较前代提升了40%。

性能没有打折，因为“知识库”足够庞大

只激活7%的参数，会不会导致能力变弱？关键在于那2950亿的总参数。

这个规模的知识储备，已经充分激活了模型处理复杂任务的核心能力。它不是一个偏科生，而是在多个硬核场景中证明了实力：

复杂推理：在清华大学求真书院的数学博士资格考中，它取得了国内模型的最高分。代码与智能体：在SWE-Bench Verified（软件工程基准测试）等权威评测中，它取得了有竞争力的成绩，被开发者评价为“工具调用成功率、代码生成可靠性表现优秀”的 Agent-First模型。长文本处理：它支持256K的超长上下文窗口，足以塞进一本20万字的中文书，进行全文分析和总结。

你可以这样理解：餐厅的菜谱（总参数）足够厚、足够全，所以无论客人点什么稀奇古怪的菜，后厨里总有专家能应对。限制成本的不是知识储备，而是每次出餐动用的资源。

成本如何被“锁死”在低位，工程与定价的双重魔法

光有好的架构还不够，混元Hy3在工程和商业层面做了大量优化，把“便宜”变成了核心竞争力。

第一层是工程优化，让每次“炒菜”更快更省火。

腾讯团队从底层重建了训练和推理的基础设施，并针对MoE架构和长上下文做了专门优化。比如支持vLLM的PagedAttention技术，让处理长文本时的“内存管理”更高效，吞吐量提升3-5倍。体现在用户体验上，就是首响应速度提升54%，长任务完成时间缩短47%。

速度上去了，单位时间能处理的请求就多了，摊薄了固定成本。

第二层是定价策略，直接击穿市场心理价位。

腾讯云为混元Hy3制定了极具攻击性的价格：

按量计费：输入最低1.2元/百万tokens，输出4元/百万tokens。如果请求内容命中缓存，输入价格甚至可以低至0.4元/百万tokens。

套餐模式：个人版TokenPlan套餐28元/月起，折合单价更低。

这个价格是什么概念？我们做一个对比：根据公开市场信息，OpenAI GPT-4的API调用成本约为30元/百万tokens输入。这意味着，在基础文本处理场景下，混元Hy3的成本可能不到GPT-4的5%。即使对比国内同期大幅涨价的同类模型，其性价比优势也极其明显。

所以，平衡的答案是什么？

混元Hy3的MoE架构，本质上是一次精准的资源配置革命。它不再盲目追求参数的无限大，而是转向追求效率的无限高。

它通过“总参数大、激活参数小”的剪刀差，在能力上限和推理成本之间劈开了一条通路：

用2950亿总参数，守住复杂任务的能力底线。用每次只激活210亿参数，锁死单次使用的成本上限。用全栈工程优化和激进定价，把性价比做到极致，推向市场。

花旗的研究报告点出了其核心逻辑：这是一条 “实用主义”路线，聚焦质量、速度与成本的平衡，而非单纯追求实验室刷榜。这一定位直接回应了Agent时代开发者的最大痛点——模型不仅要聪明，更要在真实的、长时间运行的工作流中“用得起，用得稳”。

最终，那位被成本困扰的独立开发者，将长文本解析等重任务切换至混元Hy3后，发现“同样的任务量，速度明显提升，Token消耗显著下降”。这个微小的场景，或许正是技术突破服务与人的最好注脚。

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

GPT-5.5领先Claude 3分：Anthropic的22万张GPU能否改写格局

6天前

英语水平低的人用GPT-4，为啥回答准确性更低？

6天前