来源:市场资讯
(来源:新智元)

标题:mHC:Manifold-Constrained Hyper-Connections
链接:https://arxiv.org/abs/2512.24880
在这篇论文中,DeepSeek提出了流形约束超连接(mHC),将矩阵投影到约束流形上优化残差连接空间,从而确保稳定性,彻底颠覆了传统AI架构认知——
可以扩大残差流通道宽度(residual stream width),而在算力和内存上的代价却微乎其微。

毕竟,残差流通道宽度一直是扩展模型的「烦人瓶颈」。
这波操作,也再次展现了DeepSeek典型的风格:对同行的温和降维打击——
你们两年时间都在打磨微结构,调整DS-MoE?挺可爱哈。
来看看我们怎么玩:把一个理论上看起来还不够成熟的高级原语,直接做实,顺手解锁游戏下一关。
他们在论文中写道:「我们的内部大规模训练实验进一步验证了mHC在大规模应用中的有效性。」

随后,通过如下方式得到最终满足约束的映射:

原文图6:mHC相比基线的扩展特性。 (a) 计算扩展曲线:实线展示了不同计算预算下的性能差距。每个点代表模型大小和数据集大小的特定计算最优配置,从3B和9B扩展到27B参数。(b) Token扩展曲线:3B模型在训练期间的轨迹。每个点代表模型在不同训练token数下的性能。
理想情况下,单层映射应满足双随机约束,即前向信号增益与后向梯度增益均等于1。
然而,为提升计算效率,实际实现中使用的Sinkhorn-Knopp算法必须限制迭代次数,这次实验中为20次。
因此,如下图(a)所示,后向梯度增益会略微偏离1。在下图(b)所示的复合映射情况下,偏离有所增加但仍保持有界,最大值约为1.6。

原文图8:可学习映射的可视化,展示了HC(第一行)与mHC(第二行)的代表性单层及复合映射。每个矩阵通过对选定序列内所有token取平均计算得出。y轴和x轴上的标签分别表示前向信号增益(行和)与后向梯度增益(列和)。
更多详情请参阅原论文。
参考资料:
https://arxiv.org/abs/2512.24880
https://x.com/teortaxesTex/status/2006628917428334631
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!
相关文章









猜你喜欢
成员 网址收录40418 企业收录2986 印章生成263660 电子证书1157 电子名片68 自媒体103435