大模型如何真正学会”排兵阵”?腾讯与人大高瓴开源PlanningBench评测框架
当大语言模型侃侃而谈地为你制定一份旅行攻略或项目排期时,它真的理解了你有限的预算、紧张的人力,和那些不可让步的硬性约束吗?现实往往是,AI输出的计划看似头头是道,细究之下却漏洞百出——这正是当前大模型在真实规划能力上面临的核心挑战。
腾讯混元团队近日联合中国人民大学高瓴人工智能学院等研究机构,正式开源了名为 PlanningBench 的数据生成与评测框架。它试图建立一套可扩展、可验证的基准,让大模型从”纸上谈兵”真正走向”排兵布阵”。
拒绝”刷题”:六大场景、30余种任务的实战考验
与只在单一维度考验模型能力的测试不同,PlanningBench从真实世界的复杂需求出发,系统性地抽象了任务目标、约束条件与难度层级,构建了一个覆盖 30余种规划任务类型的数据生成与验证体系。
这些任务横跨日程排布、资源分配、人力排班、路径调度、生产运营和应急服务六大核心领域。如此广泛的设计,意在避免模型在特定题型上进行”记忆表演”,而是检验其在跨领域、多样化场景下的真实决策能力。
难度可控:让测试精准命中”真实难点”
PlanningBench的精妙之处在于其科学的难度控制体系。它并非靠堆砌提示词篇幅来制造”伪困难”,而是深入拆解任务结构、约束层级和资源紧张度等关键变量,使生成的数据能够精准模拟现实世界中的决策痛点。
每一条数据实例都配备了严谨的 checklist(检查清单),用于逐条核验模型输出是否满足输入条件、资源限制以及目标最优性。这种端到端的可验证性,不仅为评测提供了”金标准”,也为模型训练提供了稳定且可迁移的奖励信号。
识别”伪正确”:局部合规 ≠ 全局可行
复杂规划中最危险的陷阱,往往不是明显的错误,而是”看起来大部分都对,但整体方案根本跑不通”。针对这一痛点,PlanningBench同时引入了局部合规与全局成功的双重评测维度。
这意味着,该框架不仅能判断计划中的单步操作是否符合规则,更能从宏观视角审视整个方案的可执行性。对于那些”局部有理、全局崩盘”的输出,PlanningBench能够精准识别,相当于为大模型的规划能力提供了一次深度的”CT扫描”。
从评测到训练:一个可迁移的闭环
PlanningBench的价值不仅在于扮演”考官”,更在于其作为”教练”的潜力。研究显示,利用该框架生成的可验证数据进行训练后,模型在从未见过的规划基准乃至通用任务上,表现均获得了显著提升。这表明,该框架所提供的学习信号具备良好的通用性与迁移能力。
从真实场景的数据生成,到精准的规划能力诊断,再到可迁移的训练优化,PlanningBench正在形成一个完整的闭环。对于致力于让AI在真实世界中承担复杂调度与决策任务的研究者和开发者而言,这无疑是一块重要的基石。
