苹果AI，装傻还是真傻？

最近苹果公司抛出了一篇叫《思考的幻象》的研究论文，上来就说，那些个大型推理模型啊，遇到稍微难点的任务就“撞墙”了，说白了就是，现在这高级人工智能推理，多半是“虚晃一枪”，根本没真正在思考。这话说的，好像一下子把AI的底裤都给掀了。仔细琢磨了一下这篇报告，怎么看怎么觉得不对劲。

你比如说吧，他们那个实验设计，简直就像是你让人蒙着眼睛、绑着双手去参加奥运体操比赛，然后惊讶地发现“呀，他怎么连平衡木都上不去？” 苹果研究员们不让AI模型用代码，可解决他们给出的那些问题，用代码才是最高效的法子啊！这就好比你让人徒手盖大楼，不给吊车水泥搅拌机，然后说你看这人不行，盖不了摩天大厦。

AI遇到那种压根儿不可能完成的任务，选择“放弃”，苹果居然把这当成是“推理能力崩溃”，说这是个缺陷。我的天，这难道不是一种智慧吗？知道啥时候该放手，总比傻乎乎地一条道走到黑强吧？想当年我老板也给我派过这种活儿，明摆着资源不够时间不足，我还硬着头皮上，结果呢？不光项目黄了，我还落得个“办事不力”的评价，那时候我要是有AI这“觉悟”，早点“崩溃”多好！

苹果还振振有词地说，他们设计的汉诺塔这类经典逻辑谜题，是为了提供一个“干净且可控的环境”，因为标准AI测试数据都被“污染”了。这话听着就有点外行了，汉诺塔这种经典游戏的解法，网上、训练数据里到处都是，这算哪门子的“未受污染”？而且，最离谱的是，他们给AI设了个“有手铐的词元限制”。比如一个13盘的汉诺塔问题，要把每一步都用文字输出，那得多少字啊？早就超过了苹果给模型设定的6万4千个输出词元上限。这不就是存心让人家输嘛？更别提市面上明明有12万8千词元模型的选项，他们偏不用。

而且那个评分标准，搞什么“全有或全无”，错一步就满盘皆输。这可太“一刀切”了，大语言模型平时可不是这么运作的，哪有这么“极度严格、毫不留情”的？这比我当年最严厉的数学老师还狠。老师顶多扣我几分，苹果这是直接判“死刑”。

所以，这篇论文背后到底打的什么算盘？明眼人一看就清楚。这论文发表的时间点，掐得也太“巧”了，正好是苹果全球开发者大会（WWDC）召开前三天。这操作，怎么看都像是在自家发布会前放个烟雾弹，转移一下大家对自己AI方面“毫无建树”的注意力。想想看，2021年苹果还是全球市值最高的公司，现在呢？都掉到第三了，被积极拥抱生成式AI的微软甩在后面。有人说苹果因为没搞好AI，可能“桌子上少了两万亿美元的市值”。这下子，为了自家那“苹果智能”被指控虚假宣传而面临的好几起集体诉讼，估计也是急了，赶紧先发制人，把整个AI领域都描黑一把，免得到时候WWDC上拿不出什么惊艳的东西，脸上挂不住。

这简直就是教科书级别的“把研究当武器”，目的就是忽悠公众，顺便迷惑一下那些股票分析师。你想啊，正经有分量的研究论文，哪个不是好几个公司、好几所大学一起合作的？苹果这篇倒好，清一色自家研究员。这种“单打独斗”的科研，含金量嘛，就得打个问号了。

所以，苹果论文里说的那个AI模型撞到的“墙”，其实就是他们自己用各种限制规则砌起来的一道虚影。这篇《思考的幻象》论文，真正的“幻象”，恐怕就是它本身。充其量就是一篇精心挑选、旨在糊弄人的“科学研究”，背后是冷冰冰、赤裸裸的市场策略。难怪整个科学AI研究圈子都对这篇论文相当不满，因为它基本上是想通过说别人的数据“被污染”来否定以往的研究成果。这吃相，可真不怎么好看。

更多文章

智能浏览器对决：OpenAI Atlas 与 Perplexity Comet 的实战较量

AI时代存储革命：SK海力士发布全新“AI-NAND”系列

AI视频革命再提速：豆包新模型10秒生成5秒高清片，成本暴降72%

让AI走进终端：Kimi CLI开启命令行智能新纪元