作加

高效推理新突破:蚂蚁百灵开源Ring-mini-sparse-2.0-exp,长序列处理提速3倍


开源新星登场:更轻更快的长文本推理模型

在大模型日益“膨胀”的今天,如何在不牺牲性能的前提下提升推理效率,成为业界关注的核心课题。近日,蚂蚁百灵大模型团队给出了他们的答案——正式开源新一代高效推理模型 Ring-mini-sparse-2.0-exp

这款模型并非简单的迭代升级,而是一次针对“长序列处理瓶颈”的深度架构创新。它基于团队自研的 Ling2.0 架构,专为应对复杂、长文本推理场景而生,尤其适合需要处理超长上下文的应用,如代码生成、法律文书分析、科研文献理解等。

稀疏艺术:用聪明的注意力机制降本增效

Ring-mini-sparse-2.0-exp 的核心突破在于其创新的稀疏注意力机制。传统Transformer模型在处理长序列时,计算量随长度呈平方级增长,成本极高。为此,团队融合了 Mixture of Experts(MoE)块级稀疏注意力(block-wise sparse attention) 的设计思路,推出了 Ling2.0Sparse 架构

具体来说,模型将输入的 Key 和 Value 按“块”划分,每个查询(query)不再关注全部内容,而是通过 top-k 块选择机制,只聚焦最关键的几个信息块。这意味着,只有被选中的块才会进行昂贵的 softmax 计算,大幅削减了不必要的计算开销。

更进一步,团队将这一机制与 Grouped Query Attention (GQA) 相结合——同一组内的查询头共享块选择结果,有效减少了内存访问(I/O)开销,在保持性能的同时显著提升了吞吐效率。

性能飞跃:吞吐量提升近3倍,持续领跑SOTA

实际表现如何?数据令人振奋:在处理长序列任务时,Ring-mini-sparse-2.0-exp 的吞吐量相比前代模型 Ring-mini-2.0 提升了近三倍。这意味着在相同硬件条件下,新模型能处理三倍以上的请求量,极大提升了部署性价比。

不仅如此,该模型在多个高难度推理基准测试中依然保持 SOTA(业界领先)水平,证明其在“提速”的同时并未牺牲“智能”——上下文理解能力与推理准确性依旧顶尖。

开源共享:推动高效AI生态发展

作为开源社区的积极贡献者,蚂蚁百灵团队已将 Ring-mini-sparse-2.0-exp 模型及相关代码开放,托管于 GitHub 平台,供研究者和开发者自由使用与二次创新。

这不仅为需要高效推理能力的场景提供了轻量化新选择,也展现了大模型从“追求规模”向“追求效率”演进的重要趋势。

🌐 项目地址:https://github.com/inclusionAI/Ring-V2/tree/main/moba

随着上下文长度不断扩展、实时推理需求日益增长,像 Ring-mini-sparse-2.0-exp 这样的高效架构,或许正是下一代大模型落地的关键拼图。