中国力量闪耀AI顶会:通义千问斩获NeurIPS最佳论文
在刚刚揭晓的全球人工智能顶级会议 NeurIPS 2025 上,中国科技力量再次惊艳世界。阿里巴巴通义千问团队凭借论文《Attention Gating Makes Better Foundation Models》一举摘得最佳论文奖,成为本届大会仅有的4篇获奖作品中唯一来自中国的研究。
这场被誉为“AI奥斯卡”的盛会今年共收到近 2万篇投稿,录用率低至 25%,竞争激烈程度前所未有。而通义团队的这项研究,不仅成功突围,更因其在基础模型架构上的突破性创新,赢得了评审团的高度认可。
“门控注意力”:给大模型装上智能过滤器
这篇论文的核心思想,可以用一个生动的比喻来理解:为注意力机制装上一扇“滑动门”。
传统大模型在处理信息时,所有注意力头(attention heads)和token都会无差别地进入后续的前馈网络(FFN),哪怕其中不少信息其实是冗余或无关的。这不仅浪费算力,还可能干扰模型判断。
通义团队的创新在于——在标准注意力层之后,引入了一层可学习的门控机制(Gated Attention)。这个门控就像一位智能安检员,能够实时判断哪些注意力头、哪些token真正有价值,只允许关键信息通过,进入下一层计算,其余则被“拦截”在外。
小改动,大收益:效率与性能双提升
别小看这“一层门”,实验证明它的影响堪称“四两拨千斤”。
研究人员在 1.7B参数的稠密模型 和 15B参数的MoE模型 上进行了大规模训练(数据量高达 3.5万亿token),结果令人振奋:
- 模型参数仅增加1%
- 困惑度(Perplexity)下降0.2(语言建模能力显著增强)
- MMLU基准测试得分提升2分(多任务理解与推理能力更强)
- 在The Pile数据集的所有子领域均实现一致性能提升
这意味着,通过极小的参数开销,模型不仅变得更聪明,还更高效——无效计算被有效遏制,鲁棒性与训练稳定性同步提升。
从理论到实践:已集成进Qwen3-Next,代码全面开源
这项技术并非纸上谈兵。阿里透露,门控注意力机制已正式集成进即将发布的 Qwen3-Next 模型中,将成为其核心架构的一部分。
更值得称赞的是,通义团队已将全部代码以及用于实验的 1.7B 参数模型在 GitHub 上开源,向全球研究社区开放验证与协作。这种开放态度,无疑将加速该技术的普及与迭代。
下一站:多模态与长文本的“智能过滤”革命
通义千问团队表示,门控注意力的潜力远不止于此。未来,他们计划将这一“会自己过滤的注意力”机制拓展至多模态理解和超长文本处理场景。
想象一下,未来的AI不仅能听懂你说什么,还能自动过滤背景噪音、忽略无关画面,只聚焦关键信息——这一切,或许正始于今天这扇小小的“门”。
随着通义千问在基础架构上的持续突破,我们有理由相信,“智能门控”或将重新定义大模型的效率边界,成为下一代AI系统的标配组件。