跨越三千年的AI识图大考：首个中国古文字OCR基准正式开源

5月18日，当生成式AI的讨论仍聚焦于现代图文生成时，一项瞄准三千年历史积淀的技术评测悄然落地。腾讯混元团队联合SSV数字文化实验室、SSV技术架构部，以及安阳师范学院甲骨文信息处理重点实验室、中科院信工所和南开大学，共同揭开了 Chronicles-OCR 的面纱。这是业界首个完整覆盖汉字“七体之变”演进轨迹的古文字识别评测基准，旨在精准度量多模态大语言模型（VLLM）在应对跨越三千年的汉字视觉分布漂移时，究竟具备多少真实的感知能力。

📜 一份为AI量身定制的“三千年考卷”

要让大模型读懂岁月留痕的文字，首先得提供一份高标准的标答。Chronicles-OCR 的数据集并非图像的简单堆砌，而是由古文字领域专家经过多层级交叉校验，最终沉淀出 2,800张 严格平衡的高质量样本。

考虑到古早字体（甲骨、金文、篆书）与成熟字体（隶、楷、行、草）在视觉结构上的巨大鸿沟，研发团队创新性地引入了“阶段自适应标注范式”。整个基准被拆解为四大核心评测维度：
– 跨时代字符检测：剥离现代排版先验，考验模型的原始定位能力。
– 细粒度古字识别：聚焦微观笔画的精准解析与区分。
– 古文转写：评估从视觉符号向语义逻辑的映射水平。
– 字体分类：检验模型对文字时代风格的判别力。

通过这种架构设计，Chronicles-OCR 成功将“视觉感知”与“语义推理”彻底解耦，为后续的技术诊断提供了干净、客观的标尺。

⚠️ 顶尖模型的“集体水土不服”

当这份考卷面向业界公开测试时，结果却暴露出当前多模态技术的明显盲区。研究团队对包括 GPT-5、Gemini3.1Pro、Claude Opus4.7 等在内的 28个 主流大模型进行了全面摸底，数据揭示了三大技术软肋：

检测任务近乎全军覆没：面对缺乏现代版式规律的古早文字，端到端模型难以建立有效的空间先验，定位能力大幅受挫。
识别精度遭遇天花板：在最考验基本功的细粒度古字识别中，表现最优的模型准确率也仅为 27.1%，距离可用标准仍有巨大差距。
“看皮不看骨”的分类误区：在字体分类任务中，AI更倾向于捕捉载体（如竹简、青铜）的表面纹理，而非真正理解文字本身的笔画微观结构。
推理模式的反噬效应：实验还意外发现，开启模型的 Reasoning（推理）能力不仅未能提效，反而放大了底层感知层面的不确定性，导致综合得分不升反降。

🚀 从“识字”迈向“读史”的破局点

Chronicles-OCR 的开源，犹如一把精准的手术刀，直接量化了顶尖商用大模型与真实古文字研究需求之间的技术断层。它并未止步于揭示短板，而是为学术界与工业界清晰勾勒出了微观感知优化的具体路径。

对于多模态大模型而言，攻克长尾垂直场景的密码从来不是单纯堆砌参数，而是需要深耕底层的基础感知能力。让AI真正跨越三千年时光，从机械地“识字”进化为有温度地“读史”，不仅是技术演进的必答题，更是数字时代守护与传承中华文化遗产的关键一步。如今，标尺已立，AI的下一场硬核进化正蓄势待发。

跨越三千年的AI识图大考：首个中国古文字OCR基准正式开源

📜 一份为AI量身定制的“三千年考卷”

⚠️ 顶尖模型的“集体水土不服”

🚀 从“识字”迈向“读史”的破局点

特斯拉AI6芯片曝光：单芯干翻双AI5，2027年量产，马斯克把AI竞赛从“算力战场”搬到了“能源前线”

AI让照片“活”了！豆包上线Seedance 1.5 Pro，一键生成会说话的有声视频

当AI聊天机器人成为你的“数字生命线”：CHAI如何用14亿美元估值重新定义社交与安全的边界

英伟达引爆自动驾驶革命：Alpamayo平台让汽车真正“学会思考”

拒绝“工程堆料”：Kimi 如何用底层架构重构 AI 商业账本？

通义DeepResearch开源发布：让AI真正成为科研助手的革命性突破

📜 一份为AI量身定制的“三千年考卷”

⚠️ 顶尖模型的“集体水土不服”

🚀 从“识字”迈向“读史”的破局点

类似文章