AI 终于学会“画图表”了?
长期以来,AI 在生成自然图像方面表现出色,像 FLUX.1 和 GPT-Image 这样的模型已经能够轻松绘制出逼真或富有创意的画面。但一旦涉及图表、公式等结构化图像,AI 往往就“翻车”了 —— 生成的内容不是数据错乱,就是逻辑不通。
这一局面,最近被香港中文大学 MMLab 联合北航、上交等高校的研究团队打破。他们推出了一款全新的 结构化图像生成与编辑系统,不仅解决了 AI 在结构化图像生成中的核心难题,还为教育、科研和办公场景带来了前所未有的可能性。
结构化图像生成,AI 面临三大挑战
研究团队指出,要让 AI 真正“理解”并“绘制”好一张结构化图像,必须满足三个关键能力:
- 精准的文本渲染:能将自然语言描述准确地转化为图像元素;
- 复杂的布局规划:确保图像结构清晰、逻辑严谨;
- 多模态推理能力:理解文字与图像之间的深层语义关联。
这些能力对 AI 在办公图表、教学课件、论文配图等专业场景的应用至关重要。然而,目前大多数数据集和模型都集中在自然图像领域,结构化图像的高质量数据极度匮乏。
三大创新,构建结构化图像生成新范式
为了突破瓶颈,研究团队从数据、模型与评估三个维度进行了系统性创新:
1. 130万代码对齐样本库
团队构建了一个包含 130万结构化图像样本 的大规模数据集。所有图像都由可执行绘图代码生成,并附带思维链标注(Chain-of-Thought),帮助模型理解生成过程中的每一步逻辑。
2. 轻量级视觉语言模型整合架构
他们设计了一种新型的轻量级视觉语言模型(VLM)整合方案,融合了结构化图像与自然图像的生成能力,使得 AI 能够在同一系统中灵活处理不同类型图像。
3. 全新评估体系 StructBench 与 StructScore
为了客观衡量模型表现,团队推出了结构化图像生成评估基准 StructBench 和专用评分指标 StructScore,确保生成图像的准确性与逻辑性。
性能领先,填补结构化视觉生成空白
实验结果显示,该系统在多个开源模型对比中表现优异,不仅在结构化图像生成任务中取得了显著提升,还为多模态 AI 的发展提供了坚实的技术支撑。
这项技术的落地,意味着 AI 终于可以在专业场景中,真正成为人类的高效助手。无论是科研绘图、教学图表,还是办公报告,AI 都有望从“辅助工具”进化为“生产力引擎”。
如果你想深入了解这项技术的实现细节,欢迎查阅论文:
arXiv 论文地址