结构化图像生成新纪元：港中文团队发布革命性 AI 编辑系统

AI 终于学会“画图表”了？

长期以来，AI 在生成自然图像方面表现出色，像 FLUX.1 和 GPT-Image 这样的模型已经能够轻松绘制出逼真或富有创意的画面。但一旦涉及图表、公式等结构化图像，AI 往往就“翻车”了 —— 生成的内容不是数据错乱，就是逻辑不通。

这一局面，最近被香港中文大学 MMLab 联合北航、上交等高校的研究团队打破。他们推出了一款全新的 结构化图像生成与编辑系统，不仅解决了 AI 在结构化图像生成中的核心难题，还为教育、科研和办公场景带来了前所未有的可能性。

研究团队指出，要让 AI 真正“理解”并“绘制”好一张结构化图像，必须满足三个关键能力：

这些能力对 AI 在办公图表、教学课件、论文配图等专业场景的应用至关重要。然而，目前大多数数据集和模型都集中在自然图像领域，结构化图像的高质量数据极度匮乏。

为了突破瓶颈，研究团队从数据、模型与评估三个维度进行了系统性创新：

团队构建了一个包含 130万结构化图像样本 的大规模数据集。所有图像都由可执行绘图代码生成，并附带思维链标注（Chain-of-Thought），帮助模型理解生成过程中的每一步逻辑。

他们设计了一种新型的轻量级视觉语言模型（VLM）整合方案，融合了结构化图像与自然图像的生成能力，使得 AI 能够在同一系统中灵活处理不同类型图像。

为了客观衡量模型表现，团队推出了结构化图像生成评估基准 StructBench 和专用评分指标 StructScore，确保生成图像的准确性与逻辑性。

实验结果显示，该系统在多个开源模型对比中表现优异，不仅在结构化图像生成任务中取得了显著提升，还为多模态 AI 的发展提供了坚实的技术支撑。

这项技术的落地，意味着 AI 终于可以在专业场景中，真正成为人类的高效助手。无论是科研绘图、教学图表，还是办公报告，AI 都有望从“辅助工具”进化为“生产力引擎”。

如果你想深入了解这项技术的实现细节，欢迎查阅论文：
arXiv 论文地址