跨越三千年的AI识图大考:首个中国古文字OCR基准正式开源

5月18日,当生成式AI的讨论仍聚焦于现代图文生成时,一项瞄准三千年历史积淀的技术评测悄然落地。腾讯混元团队联合SSV数字文化实验室、SSV技术架构部,以及安阳师范学院甲骨文信息处理重点实验室、中科院信工所和南开大学,共同揭开了 Chronicles-OCR 的面纱。这是业界首个完整覆盖汉字“七体之变”演进轨迹的古文字识别评测基准,旨在精准度量多模态大语言模型(VLLM)在应对跨越三千年的汉字视觉分布漂移时,究竟具备多少真实的感知能力。

📜 一份为AI量身定制的“三千年考卷”

要让大模型读懂岁月留痕的文字,首先得提供一份高标准的标答。Chronicles-OCR 的数据集并非图像的简单堆砌,而是由古文字领域专家经过多层级交叉校验,最终沉淀出 2,800张 严格平衡的高质量样本。

考虑到古早字体(甲骨、金文、篆书)与成熟字体(隶、楷、行、草)在视觉结构上的巨大鸿沟,研发团队创新性地引入了“阶段自适应标注范式”。整个基准被拆解为四大核心评测维度:
跨时代字符检测:剥离现代排版先验,考验模型的原始定位能力。
细粒度古字识别:聚焦微观笔画的精准解析与区分。
古文转写:评估从视觉符号向语义逻辑的映射水平。
字体分类:检验模型对文字时代风格的判别力。

通过这种架构设计,Chronicles-OCR 成功将“视觉感知”与“语义推理”彻底解耦,为后续的技术诊断提供了干净、客观的标尺。

⚠️ 顶尖模型的“集体水土不服”

当这份考卷面向业界公开测试时,结果却暴露出当前多模态技术的明显盲区。研究团队对包括 GPT-5、Gemini3.1Pro、Claude Opus4.7 等在内的 28个 主流大模型进行了全面摸底,数据揭示了三大技术软肋:

  1. 检测任务近乎全军覆没:面对缺乏现代版式规律的古早文字,端到端模型难以建立有效的空间先验,定位能力大幅受挫。
  2. 识别精度遭遇天花板:在最考验基本功的细粒度古字识别中,表现最优的模型准确率也仅为 27.1%,距离可用标准仍有巨大差距。
  3. “看皮不看骨”的分类误区:在字体分类任务中,AI更倾向于捕捉载体(如竹简、青铜)的表面纹理,而非真正理解文字本身的笔画微观结构。
  4. 推理模式的反噬效应:实验还意外发现,开启模型的 Reasoning(推理)能力不仅未能提效,反而放大了底层感知层面的不确定性,导致综合得分不升反降。

🚀 从“识字”迈向“读史”的破局点

Chronicles-OCR 的开源,犹如一把精准的手术刀,直接量化了顶尖商用大模型与真实古文字研究需求之间的技术断层。它并未止步于揭示短板,而是为学术界与工业界清晰勾勒出了微观感知优化的具体路径。

对于多模态大模型而言,攻克长尾垂直场景的密码从来不是单纯堆砌参数,而是需要深耕底层的基础感知能力。让AI真正跨越三千年时光,从机械地“识字”进化为有温度地“读史”,不仅是技术演进的必答题,更是数字时代守护与传承中华文化遗产的关键一步。如今,标尺已立,AI的下一场硬核进化正蓄势待发。

作加

类似文章