蚂蚁开源128K超长上下文AI模型：6.1B激活参数挑战40B巨兽

一觉醒来，编程AI又进化了？

如果你还在为大模型处理长代码时卡顿、出错、效率低下而头疼，那么这条消息可能会改变你的工作流。近日，蚂蚁集团百灵大模型团队正式开源了一款名为 Ring-flash-linear-2.0-128K 的新型AI模型——它不仅原生支持128K超长上下文，还能通过技术扩展至512K，更关键的是：仅激活6.1B参数，性能却堪比40B级别的密集模型。

这不只是“又一个开源模型”，而是一次对长文本编程效率的重新定义。

架构革命：线性注意力 + MoE，让大模型“轻装上阵”

传统大模型在处理长序列时，计算复杂度呈平方级增长，导致推理慢、显存爆、成本高。而 Ring-flash-linear-2.0-128K 的突破，正源于其混合注意力架构与稀疏化MoE设计的完美结合。

该模型总参数高达104B，但通过1/32的专家激活比率和多任务处理层（MTP）优化，实际运行中仅激活6.1B参数（非嵌入部分仅4.8B），实现了近线性时间复杂度和常量空间复杂度——这意味着，无论输入多长，模型的响应速度几乎不打折。

其核心是自研的线性注意力融合模块作为主干，辅以少量标准注意力机制，在保证精度的同时大幅降低计算负担。实测显示，在H20硬件上，模型在128K上下文下仍能保持每秒生成200+ tokens，日常使用效率提升3倍以上，真正做到了“大模型，小开销”。

训练升级：1T token强化学习，数学编程双杀SOTA

光有架构还不够，训练策略才是拉开差距的关键。Ring-flash-linear-2.0-128K 基于前代 Ling-flash-base-2.0 模型，额外使用了1万亿token的高质量数据集进行微调，并引入了稳定监督微调（SFT） 与多阶段强化学习（RL） 技术，成功解决了MoE模型在长链推理中常见的训练不稳定问题。

更值得一提的是，蚂蚁自研的“棒冰（icepop）算法”在背后发挥了关键作用，显著提升了模型在复杂任务中的鲁棒性与一致性。

结果如何？硬核表现直接封神：

在 AIME2025 数学竞赛中拿下 86.98 高分；
CodeForces 编程Elo评分达90.23，接近顶级人类选手水平；
在逻辑推理与创意写作v3基准上，全面超越同级别密集模型（如 Qwen3-32B）；

在多个开源MoE与Dense模型横向对比中，它几乎包揽榜首，成为当前长上下文场景下的性能标杆。

长文本黑科技：128K原生支持，512K自由扩展

对于开发者而言，最头疼的莫过于模型“记不住”上下文。而 Ring-flash-linear-2.0-128K 直接将原生上下文窗口拉满至 128K tokens，并通过 YaRN 外推技术轻松扩展至 512K，堪称“代码永动机”。

在实际测试中：

Prefill阶段（预填充）吞吐量较 Qwen3-32B 提升近 5倍；
Decode阶段（解码）速度提升高达10倍；
即使在 32K+ 的长代码任务中，依然保持高准确率，无“穿模”、无逻辑漂移；

无论是前端项目重构、大型系统代码生成，还是智能代理的长链决策模拟，它都能稳稳扛住，真正实现“输入不卡，输出不断”。

开源即用：Hugging Face + ModelScope 双平台上线

为了让开发者零门槛上手，百灵团队已将模型权重同步开源至 Hugging Face 与 ModelScope，支持 BF16 / FP8 精度格式，适配主流推理框架。

只需几步即可部署：

pip install flash-linear-attention==0.3.2 transformers==4.56.1

然后通过 Transformers、SGLang 或 vLLM 一键加载：

使用 vLLM 时，在 tensor-parallel-size=4 配置下，GPU 利用率可达 90%，支持高效API调用；
Hugging Face 提供完整示例，直接 generate 长代码提示，开箱即用。

技术报告已发布于 arXiv：https://arxiv.org/abs/2510.19338，欢迎下载研究。

蚂蚁百灵，正在领跑高效AI新赛道

这次开源，不仅是 Ring 系列的一次迭代，更是蚂蚁百灵在 “MoE + 长思维链 + 强化学习” 技术路线上的一次全面胜利。从 Ling2.0 到 Ring-linear，推理效率提升超过7倍，而成本仅为传统方案的 1/10。

这意味着：

编程新手也能一键生成复杂脚本；
智能代理系统可执行更长、更复杂的任务链；
企业级应用可低成本部署高性能AI，无需堆显卡；

随着未来 Ring-1T 万亿级旗舰模型的跟进，国产MoE架构有望在全球高效AI赛道中占据主导地位。

结语：小激活，大性能，AI开源的新范式

Ring-flash-linear-2.0-128K 用“6.1B激活，战40B”的硬核实力，重新诠释了什么是“高效AI”。它不是参数军备竞赛的追随者，而是长文本推理新时代的开启者。

开发者们，是时候上 Hugging Face 或 ModelScope 亲自试试了——这一次，AI真的能“看完”你的整个项目。

蚂蚁开源128K超长上下文AI模型：6.1B激活参数挑战40B巨兽

一觉醒来，编程AI又进化了？

架构革命：线性注意力 + MoE，让大模型“轻装上阵”

训练升级：1T token强化学习，数学编程双杀SOTA

长文本黑科技：128K原生支持，512K自由扩展

开源即用：Hugging Face + ModelScope 双平台上线

蚂蚁百灵，正在领跑高效AI新赛道

结语：小激活，大性能，AI开源的新范式

更多文章

AR领域的强强联手：Magic Leap与Google重启合作，打造下一代智能眼镜

高通亮剑云端：AI芯片新贵能否改写英伟达霸权？

AI革命来袭，游戏开发者们为何有人欢呼有人忧？

亚马逊豪掷50亿美元加码韩国AI基建，全球最大算力中心即将崛起