吞吐量飙升2.4倍、质量近乎无损!英伟达开源“双塔”扩散语言模型
大语言模型的生成速度,一直是个让人头疼的瓶颈。传统的自回归(AR)模型就像挤牙膏,必须一个token接着一个token串行吐出,面对大批量的文本合成任务时,效率实在堪忧。为了打破这个僵局,英伟达在7月1日放出了大招——正式开源了全新的 Nemotron-Labs-TwoTower 扩散语言模型。
这次英伟达带来的解法叫“双塔”架构,思路非常巧妙:它把生成任务拆成了两个各司其职的模块。一个是处于冻结状态的“上下文塔”,它的职责是消化提示词,稳住模型原本的语言理解功底;另一个则是专门训练过的“去噪器塔”,负责并行处理和优化token,把生成速度拉满。这种分工不仅让处理过程摆脱了串行束缚,还巧妙地兼顾了生成的质量与效率。
数据证明,这绝不仅仅是理论上的噱头。在2×H100 GPU的硬核评测下,Nemotron-Labs-TwoTower在默认配置中死死咬住了基线模型 98.7% 的生成质量,但实际的吞吐量却一骑绝尘,实现了 2.42倍 的跃升!对于那些每天需要海量合成数据的数据团队来说,这绝对是个兼顾质与效的杀手级工具。
除了速度猛,灵活性也很高。该模型支持三种解码模式任选:扩散模式、模拟AR以及标准AR,开发者可以根据不同场景自由切换。更让人心动的是,它是作为开放权重项目发布的,遵循 NVIDIA Nemotron 开放模型许可协议,完全支持商业应用,这就意味着企业可以直接拿来变现。
当然,客观来说它也并非完美无缺。在代码生成和数学推理等硬核逻辑任务上,它比起原始基线还有轻微的掉队;同时对GPU显存的胃口也不小。但瑕不掩瑜,它为LLM推理加速指明了一个极具爆发力的新方向。当AI应用不可避免地向高频、规模化演进时,用架构层面的创新来换取生成速度,正在成为大模型研发不可逆转的新浪潮。
