吞吐量飙升2.4倍、质量近乎无损！英伟达开源“双塔”扩散语言模型

大语言模型的生成速度，一直是个让人头疼的瓶颈。传统的自回归（AR）模型就像挤牙膏，必须一个token接着一个token串行吐出，面对大批量的文本合成任务时，效率实在堪忧。为了打破这个僵局，英伟达在7月1日放出了大招——正式开源了全新的 Nemotron-Labs-TwoTower 扩散语言模型。

这次英伟达带来的解法叫“双塔”架构，思路非常巧妙：它把生成任务拆成了两个各司其职的模块。一个是处于冻结状态的“上下文塔”，它的职责是消化提示词，稳住模型原本的语言理解功底；另一个则是专门训练过的“去噪器塔”，负责并行处理和优化token，把生成速度拉满。这种分工不仅让处理过程摆脱了串行束缚，还巧妙地兼顾了生成的质量与效率。

数据证明，这绝不仅仅是理论上的噱头。在2×H100 GPU的硬核评测下，Nemotron-Labs-TwoTower在默认配置中死死咬住了基线模型 98.7% 的生成质量，但实际的吞吐量却一骑绝尘，实现了 2.42倍 的跃升！对于那些每天需要海量合成数据的数据团队来说，这绝对是个兼顾质与效的杀手级工具。

除了速度猛，灵活性也很高。该模型支持三种解码模式任选：扩散模式、模拟AR以及标准AR，开发者可以根据不同场景自由切换。更让人心动的是，它是作为开放权重项目发布的，遵循 NVIDIA Nemotron 开放模型许可协议，完全支持商业应用，这就意味着企业可以直接拿来变现。

当然，客观来说它也并非完美无缺。在代码生成和数学推理等硬核逻辑任务上，它比起原始基线还有轻微的掉队；同时对GPU显存的胃口也不小。但瑕不掩瑜，它为LLM推理加速指明了一个极具爆发力的新方向。当AI应用不可避免地向高频、规模化演进时，用架构层面的创新来换取生成速度，正在成为大模型研发不可逆转的新浪潮。

吞吐量飙升2.4倍、质量近乎无损！英伟达开源“双塔”扩散语言模型

Kimi For Coding 正式上线：为开发者打造极速编程新体验

一人一指令，24小时出剧！Zopia让AI当导演，短剧生产进入“全自动电影工厂”时代

AI声库革命：ElevenLabs打造名人声音授权新生态

县城里的AI淘金热：打工人正用99元耳机和免费工具改写命运

AI圣诞不打烊：三大科技巨头上演编程工具“福利大战”

AI代码审查新贵CodeRabbit：6000万美元融资背后的技术突围

类似文章