AI 视觉大考翻车现场:Gemini 3 Pro 竟输给6岁娃?一场拼图测试揭穿“万亿参数”的感知真相


当AI在拼图前卡壳:一场让大模型集体“降维”的视觉考试

就在我们为大模型接连拿下国际奥赛金牌、通过律师/医生资格考试而欢呼时,一组来自UniPat AI、xbench、阿里、月之暗面与阶跃星辰的联合研究,悄悄给这场狂欢按下了暂停键。

他们没出数学题,也没考编程——而是拿出了一套专为3–6岁儿童设计的视觉推理题:找不同、空间拼图、轨迹连线、积木侧视图推演……这场名为 BabyVision 的“闭卷考试”,结果令人愕然:

  • Gemini 3 Pro Preview(当前最强多模态模型之一)仅以微弱优势胜过3岁幼儿
  • 面对6岁儿童的平均表现,AI仍存在20%的准确率断层——相当于每5道题就错1道;
  • 多数顶尖模型在“旋转对齐”“遮挡判断”“三维投影”等基础任务上频频失分,错误率甚至高于人类学龄前儿童。

这不是AI不够聪明,而是它根本没学会“用眼睛思考”

语言动物的视觉盲区:万亿参数,为何看不清一根弯曲的线?

你可能想象不到:当AI“看”一张图时,它其实没在看图——而是在“读图”。

绝大多数主流多模态模型(包括Gemini、Qwen-VL、Kimi-VL等)采用的是视觉-语言对齐架构:先用视觉编码器把图像压缩成一串向量,再“翻译”成文字描述(比如“一个蓝色三角形叠在红色正方形上方”),最后靠语言模型进行推理。

这个看似高效的流程,恰恰埋下了致命短板:
✅ 宏观语义(如“猫在沙发上”)能说清;
❌ 但像素级的几何偏移、曲线曲率差异、交叉路径的拓扑连续性、遮挡边界的亚像素判断……这些无法被语言精准锚定的视觉本质,全在“翻译”中被粗暴丢弃。

就像让一位只懂诗歌的建筑师,凭一首七言绝句去复原埃菲尔铁塔的铆钉排布——诗意满分,精度归零。

四大视觉滑铁卢:AI在哪些地方输给了幼儿园小朋友?

BabyVision基准首次系统拆解了大模型的视觉“失能点”,归纳为四个清晰维度(每项均经百轮人工校验验证):

🔹 非言语精细细节缺失

“这个L形块旋转90°后,缺口朝向是否匹配?”
人类孩子靠直觉“脑内旋转”就能答对;AI却因无法建模亚像素级轮廓变化,在拼图匹配中反复选错——不是不会算,是根本没‘看见’那个0.3像素的错位

🔹 流形一致性丢失

“从起点A出发,沿红线走,经过三次交叉后,终点是B还是C?”
人在追踪长路径时天然维持空间连贯性;AI却像信号不良的GPS,在第一次交叉点就“跳帧”,后续推理全线崩塌。

🔹 空间想象力匮乏

“这堆彩色积木的侧视图是什么样?”
语言描述无法承载三维体积关系。模型常把隐藏层误判为“不存在”,或把斜向堆叠错算成垂直层数——它不是算错,是压根没构建出那个立体心智模型

🔹 视觉模式归纳障碍

给出3个动态变化的图形序列,预测第4个
人类孩子能秒懂“每次顺时针转45°+颜色轮换”,AI却执着于“数角数量、统计红蓝占比”,陷入属性罗列陷阱,看不见变化背后的因果律

具身智能的警钟:如果AI连玩具都认不全,怎么帮你拿咖啡?

这一发现对正火热的具身智能(Embodied AI) 构成直接拷问:

若一个机器人看不清门把手的朝向、判断不了纸箱是否倾斜、搞不定抽屉滑轨的物理状态——它如何安全地走进你的厨房,为你端来一杯不洒一滴的咖啡?

当前多数具身系统依赖“视觉→文本→动作规划”的三段式链路,BabyVision证明:第一环就已严重漏气

下一站进化:从“翻译官”到“视觉原住民”

研究团队并未止步于揭短,更指出了两条突破路径:

  • RLVR(Reinforced Language-Visual Reasoning):引入强化学习,在视觉理解环节插入可微分的中间推理模块(如注意力掩码优化、轨迹置信度校准),主动对抗感知不确定性;
  • 原生像素级演算:放弃“翻译”,转向Sora 2式的端到端视觉Transformer——让模型直接在像素空间建模形状、运动与力的隐式物理规律,像人一样“用眼思考”。

这或许正是AGI真正的分水岭:

不在于能否解出黎曼猜想,而在于能否在阳光斜射的地板上,一眼看出那块松动的瓷砖——并绕开它,稳稳走向你。

毕竟,最伟大的智能,从来不是最复杂的,而是最贴近世界本来面目的