作加

大模型也能”多线程”思考?腾讯AI实验室突破推理新范式


人工智能思维模式迎来重大突破

腾讯AI Lab联合多所高校研究团队,成功开发出名为Parallel-R1的创新强化学习框架。这项突破性研究为大模型赋予了前所未有的”并行思维”能力,使其能够在处理复杂问题时同时探索多条推理路径。

突破传统训练方式的局限

过往大模型训练主要依赖监督微调(SFT),这种方式存在两大瓶颈:
– 对数据质量要求极高
– 模型容易陷入简单模仿,缺乏自主学习能力

研究团队巧妙地设计了一套创新解决方案:通过简单提示引导模型自动生成高质量的并行思维数据,并采用”渐进式课程”训练模式。模型先从简单任务中掌握并行思维的基本格式,再逐步挑战更复杂的数学问题。

创新奖励机制提升思维多样性

研究团队还开发了独特的交替式奖励策略,在训练中动态平衡:
准确率奖励:确保解题质量
多样性奖励:鼓励探索多条思维路径

这种策略显著提升了模型的思维发散能力,在测试中展现出惊人的表现提升:
– 在多个数学基准测试中平均准确率提升8.4%
– 在极具挑战的AIME25测试中,性能飞跃达到42.9%

从”单线程”到”多线程”的思维进化

随着训练深入,模型展现出有趣的思维进化过程:初期采用”广撒网”式的探索策略,后期逐渐转变为”精准验证”的高效模式。这种思维模式的转变,充分展现了并行思维框架的优势。

这项突破不仅为大模型推理能力开辟了新方向,更为未来人工智能研究提供了全新思路。Parallel-R1框架的成功证明,并行思维在解决复杂任务中具有巨大潜力,或将引领AI技术进入新的发展阶段。