作加

颠覆生成式AI格局:蚂蚁发布百B级扩散语言模型LLaDA2.0


打破极限,百B参数的扩散语言模型来了

在大语言模型(LLM)的赛道上,自回归模型长期占据主导地位。然而,随着技术演进,一种全新的架构正在悄然崛起——离散扩散语言模型(dLLM)。近日,蚂蚁技术研究院正式开源了 LLaDA2.0 系列模型,其中包含一个令人震惊的版本:参数规模高达1000亿(100B),成为业内首个达到如此体量的扩散语言模型

这一发布不仅刷新了人们对扩散模型“难以规模化”的固有认知,更以惊人的性能表现,为生成式AI开辟了一条全新的技术路径。

两个版本,同一目标:更快、更强、更智能

LLaDA2.0 系列推出了两款模型:
LLaDA2.0-mini(16B):轻量版,适合研究与快速实验。
LLaDA2.0-flash(100B):旗舰版,当前全球最大的离散扩散语言模型,专为复杂任务而生。

尤其是100B版本,在代码生成、智能体任务执行和长文本推理等场景中展现出卓越能力。它不仅能理解复杂的指令结构,还能进行全局性规划,在生成过程中保持逻辑一致性,这正是传统自回归模型在长序列中容易丢失的特质。

速度飞跃:并行解码实现535 tokens/s

最引人注目的突破之一是推理速度。得益于创新的 KV Cache 复用块级并行解码技术,LLaDA2.0 的推理吞吐量达到了惊人的 535 tokens/秒,相比同级别的自回归模型,提速高达2.1倍

这意味着什么?简单来说,模型可以像“并行绘画”一样同时生成多个词元,而不是逐字“串行书写”。这种类比于图像扩散中的“去噪过程”,让语言生成变得更高效、更可控。

智能预训练策略:告别从零开始

训练如此庞大的扩散模型,成本极高。为此,蚂蚁团队提出了一种全新的 Warmup-Stable-Decay(WSD)预训练策略,成功实现了对已有自回归模型知识的无缝继承

换句话说,LLaDA2.0 并非从零学起,而是站在巨人的肩膀上——通过迁移已有大模型的知识,大幅降低了训练门槛和资源消耗,同时保证了生成质量的稳定提升。

后训练优化:数据效率与推理双提升

在后训练阶段,团队进一步引入了两项关键技术:
互补掩码:增强模型对上下文的理解能力。
置信度感知并行训练(CAP):动态调整训练重点,提高数据利用效率。

这些方法共同作用,使模型在有限数据下也能实现高性能,并进一步压缩推理延迟,真正做到了“又快又准”。

应用前景广阔:不止于代码生成

虽然 LLaDA2.0 在代码生成任务中表现尤为亮眼——其结构化输出能力和逻辑连贯性远超同类模型——但它的潜力远不止于此。

在需要多步推理、工具调用和长期记忆的智能体(Agent)系统中,LLaDA2.0 展现出了更强的任务分解与执行规划能力。无论是编写完整程序、操作API,还是处理超长文档,它都能从容应对。

开源即未来,推动技术边界

蚂蚁集团已将 LLaDA2.0 全系列模型开源,托管于 Hugging Face 平台,供全球开发者和研究人员使用:
👉 https://huggingface.co/collections/inclusionAI/llada-20

此次发布不仅是离散扩散语言模型发展史上的一个重要里程碑,也标志着扩散架构正式进入超大规模应用的新阶段

展望未来,蚂蚁表示将持续探索更大参数规模的可能性,并计划融合强化学习与“思考范式”(reasoning paradigms),进一步释放生成式AI的潜能。

或许,下一个时代的语言模型,不再是“逐字生成”的叙述者,而是“整体构思”的创造者。而 LLaDA2.0,正是这场变革的开端。