NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文-工信会

> 自媒体 > （AI）人工智能 > NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文

NeurIPS 2025放榜：阿里Qwen门控注意力获最佳论文

来源：量子位

2026-05-03 09:23:55

127

管理

嘻疯发自凹非寺

量子位 | 公众号 QbitAI

刚刚，NeurIPS 2025最佳论文奖、时间检验奖出炉！

今年Best Paper共有4篇，3篇为华人一作，阿里Qwen门控注意力获奖。

Best Paper Runner-up也有三篇。

这七篇论文聚焦于扩散模型理论、自监督强化学习、大语言模型注意力机制、大语言模型推理能力、在线学习理论、神经缩放定律以及语言模型多样性基准测试方法等领域的突破性进展。

论文一作为来自华盛顿大学的Liwei Jiang。

这篇工作聚焦大语言模型在开放式生成任务中的多样性问题，提出“人工蜂群思维（Artificial Hivemind）”概念。

核心发现是当前大模型存在显著的模型内重复和模型间同质性：

单一模型对同一开放式查询会生成相似响应，不同模型（无论开源还是闭源、不同规模）也会收敛到相似输出，即便采用min-p等增强多样性的解码策略，仍有超60%的响应相似度超过0.8。

为支撑研究，作者构建了含26K真实世界开放式查询的INFINITY-CHAT数据集，涵盖创意内容生成、头脑风暴、哲学问题等6大类17个子类，并收集了31250条人类标注，形成首个系统评估开放式查询的资源。

论文共同一作Zihan Qiu、Zekun Wang、Bo Zheng均来自阿里Qwen团队，Zeyu Huang来自爱丁堡大学。

该论文聚焦大语言模型中的门控注意力机制，通过对15B混合专家（MoE）模型和1.7B稠密模型在3.5万亿token数据集上的30种变体进行全面实验，系统探究了门控增强型softmax注意力的效果。

研究核心发现，在缩放点积注意力（SDPA）后应用特定于注意力头的sigmoid门控能持续提升模型性能，同时增强训练稳定性、容忍更大学习率并改善缩放特性。

此外，该门控机制在MoE模型和稠密模型中均有效，能支持更大学习率和批次大小的稳定训练，且在上下文长度扩展至128k时仍保持优越性能，相关代码和模型已公开，其核心设计也被应用于Qwen3-Next模型中。

3、《1000 Layer Networks for Self-Supervised RL: Scaling Depth Can Enable New Goal-Reaching Capabilities》

此外，研究发现深度扩展的优势主要体现在在线RL场景，离线设置下效果有限，且仅CRL等自监督算法能有效利用深度扩展，传统TD类算法难以从中获益。

论文通过详尽的实验验证、架构消融和机制分析，为RL的规模扩展提供了新范式，同时也指出了计算成本较高等局限性。

4、《Why Diffusion Models Don’t Memorize: The Role of Implicit Dynamical Regularization in Training》

论文共同一作Tony Bonnaire、Raphaël Urfin，来自巴黎高等科学与研究学院。

论文深入探究了扩散模型避免训练数据记忆化、实现泛化的核心机制，聚焦训练动态中的隐式动力学正则化作用。

论文首先指出，扩散模型在图像、音频、视频等生成任务中表现出色，但理解其防止记忆化、保障泛化能力的机制是关键挑战。通过大量数值实验与理论分析，研究识别出两个关键训练时间尺度：

一是泛化时间，即模型开始生成高质量样本所需的最短训练时间，该时间与训练集大小无关；二是记忆化时间，超过此时间模型会开始记忆训练数据，且该时间随训练集大小呈线性增长。

这两个时间尺度形成的泛化窗口会随训练集规模扩大而拓宽，只要训练在泛化窗口内停止，模型就能高效泛化，只有当训练集大小超过模型相关阈值时，无限训练时间下的过拟合才会消失，这一发现揭示了隐式动力学正则化能让扩散模型即便在高度过参数化场景下也可避免记忆化。

理论分析层面，研究采用随机特征神经网络模型，在高维极限下结合随机矩阵理论等工具，分析训练动态。

结果表明，训练动态的时间尺度与随机特征相关矩阵的特征值倒数相关，过参数化场景下会出现两个分离的特征值区间，分别对应泛化和记忆化时间尺度，泛化阶段依赖数据总体协方差，与具体数据集无关，记忆化阶段则与数据集相关的高频特征有关，进一步印证了实验观察到的规律。

此外，论文还探讨了优化器影响、条件生成场景等扩展情况，同时指出研究局限，如未充分探索更宽范围的模型参数、未深入分析条件生成对时间尺度的具体影响等。

Faster R-CNN获时间检验奖

Faster R-CNN目标检测框架，核心创新是引入区域提议网络（RPN），通过与检测网络共享全图像卷积特征，解决了传统目标检测中区域提议计算耗时的瓶颈问题，实现了高效且高精度的目标检测。

RPN作为全卷积网络，能在特征图的每个位置同时预测目标边界框和目标性得分，其设计的“锚点”机制通过3种尺度和3种长宽比的参考框，无需图像金字塔或滤波器金字塔即可覆盖多种尺度和形状的目标，兼具平移不变性且参数规模远小于MultiBox等方法，有效降低过拟合风险。

论文设计了多任务损失函数，结合分类损失（log损失）和回归损失（smooth L1损失），通过4步交替训练策略将 RPN与Fast R-CNN融合为统一网络，实现卷积特征的共享——

RPN扮演注意力角色指示检测网络关注区域，Fast R-CNN负责对提议区域进行精确分类和边界框修正。

在实验验证方面，该框架在PASCAL VOC 2007、2012和MS COCO等数据集上均取得当时最先进的检测精度，使用VGG-16模型时在GPU上达到5fps的帧率（含所有步骤），仅需300个提议区域即可优于传统Selective Search（2000个提议）的性能，且提议计算仅耗时10ms。

在ILSVRC和COCO 2015竞赛中，Faster R-CNN和RPN成为多个赛道冠军方案的基础。

此外，论文还通过消融实验验证了锚点设置、损失函数平衡参数等超参数的鲁棒性，对比了单阶段与两阶段检测框架的优劣，证明两阶段架构更具精度优势，同时探索了MS COCO大规模数据集对PASCAL VOC任务的迁移提升作用，通过跨数据集预训练实现了检测精度的显著提高。

该框架不仅为实时目标检测提供了实用解决方案，其共享特征和锚点机制也深刻影响了后续3D目标检测、实例分割等多个计算机视觉领域的发展，相关代码已公开供学术界和工业界使用。

参考链接：[1]https://blog.neurips.cc/2025/11/26/announcing-the-neurips-2025-best-paper-awards/[2]https://blog.neurips.cc/2025/11/26/announcing-the-test-of-time-paper-award-for-neurips-2025/

— 完 —

量子位 QbitAI · 头条号签约

关注我们，第一时间获知前沿科技动态

赏礼

赏钱

免责声明：本文仅代表作者个人观点，与本站无关。其原创性以及文中陈述文字和内容未经本网证实，对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本站不作任何保证或承诺，请读者仅作参考，并请自行核实相关内容。凡本网注明 “来源：XXX（非本站）”的作品，均转载自其它媒体，转载目的在于传递更多信息，并不代表本网赞同其观点和对其真实性负责。如因作品内容、版权和其它问题需要同本网联系的，请在一周内进行，以便我们及时处理。 QQ：617470285 邮箱：617470285@qq.com

DeepSeek V4核心功能+使用教程，这一篇全讲透

1个月前

阿里千问开源4款Qwen3.5小尺寸模型，满足资源受限至轻量应用不同需求

1个月前