当AI在拼图前卡壳:一场让大模型集体“降维”的视觉考试
就在我们为大模型接连拿下国际奥赛金牌、通过律师/医生资格考试而欢呼时,一组来自UniPat AI、xbench、阿里、月之暗面与阶跃星辰的联合研究,悄悄给这场狂欢按下了暂停键。
他们没出数学题,也没考编程——而是拿出了一套专为3–6岁儿童设计的视觉推理题:找不同、空间拼图、轨迹连线、积木侧视图推演……这场名为 BabyVision 的“闭卷考试”,结果令人愕然:
- Gemini 3 Pro Preview(当前最强多模态模型之一)仅以微弱优势胜过3岁幼儿;
- 面对6岁儿童的平均表现,AI仍存在20%的准确率断层——相当于每5道题就错1道;
- 多数顶尖模型在“旋转对齐”“遮挡判断”“三维投影”等基础任务上频频失分,错误率甚至高于人类学龄前儿童。
这不是AI不够聪明,而是它根本没学会“用眼睛思考”。
语言动物的视觉盲区:万亿参数,为何看不清一根弯曲的线?
你可能想象不到:当AI“看”一张图时,它其实没在看图——而是在“读图”。
绝大多数主流多模态模型(包括Gemini、Qwen-VL、Kimi-VL等)采用的是视觉-语言对齐架构:先用视觉编码器把图像压缩成一串向量,再“翻译”成文字描述(比如“一个蓝色三角形叠在红色正方形上方”),最后靠语言模型进行推理。
这个看似高效的流程,恰恰埋下了致命短板:
✅ 宏观语义(如“猫在沙发上”)能说清;
❌ 但像素级的几何偏移、曲线曲率差异、交叉路径的拓扑连续性、遮挡边界的亚像素判断……这些无法被语言精准锚定的视觉本质,全在“翻译”中被粗暴丢弃。
就像让一位只懂诗歌的建筑师,凭一首七言绝句去复原埃菲尔铁塔的铆钉排布——诗意满分,精度归零。
四大视觉滑铁卢:AI在哪些地方输给了幼儿园小朋友?
BabyVision基准首次系统拆解了大模型的视觉“失能点”,归纳为四个清晰维度(每项均经百轮人工校验验证):
🔹 非言语精细细节缺失
“这个L形块旋转90°后,缺口朝向是否匹配?”
人类孩子靠直觉“脑内旋转”就能答对;AI却因无法建模亚像素级轮廓变化,在拼图匹配中反复选错——不是不会算,是根本没‘看见’那个0.3像素的错位。
🔹 流形一致性丢失
“从起点A出发,沿红线走,经过三次交叉后,终点是B还是C?”
人在追踪长路径时天然维持空间连贯性;AI却像信号不良的GPS,在第一次交叉点就“跳帧”,后续推理全线崩塌。
🔹 空间想象力匮乏
“这堆彩色积木的侧视图是什么样?”
语言描述无法承载三维体积关系。模型常把隐藏层误判为“不存在”,或把斜向堆叠错算成垂直层数——它不是算错,是压根没构建出那个立体心智模型。
🔹 视觉模式归纳障碍
给出3个动态变化的图形序列,预测第4个
人类孩子能秒懂“每次顺时针转45°+颜色轮换”,AI却执着于“数角数量、统计红蓝占比”,陷入属性罗列陷阱,看不见变化背后的因果律。
具身智能的警钟:如果AI连玩具都认不全,怎么帮你拿咖啡?
这一发现对正火热的具身智能(Embodied AI) 构成直接拷问:
若一个机器人看不清门把手的朝向、判断不了纸箱是否倾斜、搞不定抽屉滑轨的物理状态——它如何安全地走进你的厨房,为你端来一杯不洒一滴的咖啡?
当前多数具身系统依赖“视觉→文本→动作规划”的三段式链路,BabyVision证明:第一环就已严重漏气。
下一站进化:从“翻译官”到“视觉原住民”
研究团队并未止步于揭短,更指出了两条突破路径:
- RLVR(Reinforced Language-Visual Reasoning):引入强化学习,在视觉理解环节插入可微分的中间推理模块(如注意力掩码优化、轨迹置信度校准),主动对抗感知不确定性;
- 原生像素级演算:放弃“翻译”,转向Sora 2式的端到端视觉Transformer——让模型直接在像素空间建模形状、运动与力的隐式物理规律,像人一样“用眼思考”。
这或许正是AGI真正的分水岭:
不在于能否解出黎曼猜想,而在于能否在阳光斜射的地板上,一眼看出那块松动的瓷砖——并绕开它,稳稳走向你。
毕竟,最伟大的智能,从来不是最复杂的,而是最贴近世界本来面目的。