最近苹果公司抛出了一篇叫《思考的幻象》的研究论文,上来就说,那些个大型推理模型啊,遇到稍微难点的任务就“撞墙”了,说白了就是,现在这高级人工智能推理,多半是“虚晃一枪”,根本没真正在思考。这话说的,好像一下子把AI的底裤都给掀了。仔细琢磨了一下这篇报告,怎么看怎么觉得不对劲。
你比如说吧,他们那个实验设计,简直就像是你让人蒙着眼睛、绑着双手去参加奥运体操比赛,然后惊讶地发现“呀,他怎么连平衡木都上不去?” 苹果研究员们不让AI模型用代码,可解决他们给出的那些问题,用代码才是最高效的法子啊!这就好比你让人徒手盖大楼,不给吊车水泥搅拌机,然后说你看这人不行,盖不了摩天大厦。
AI遇到那种压根儿不可能完成的任务,选择“放弃”,苹果居然把这当成是“推理能力崩溃”,说这是个缺陷。我的天,这难道不是一种智慧吗?知道啥时候该放手,总比傻乎乎地一条道走到黑强吧?想当年我老板也给我派过这种活儿,明摆着资源不够时间不足,我还硬着头皮上,结果呢?不光项目黄了,我还落得个“办事不力”的评价,那时候我要是有AI这“觉悟”,早点“崩溃”多好!
苹果还振振有词地说,他们设计的汉诺塔这类经典逻辑谜题,是为了提供一个“干净且可控的环境”,因为标准AI测试数据都被“污染”了。这话听着就有点外行了,汉诺塔这种经典游戏的解法,网上、训练数据里到处都是,这算哪门子的“未受污染”?而且,最离谱的是,他们给AI设了个“有手铐的词元限制”。比如一个13盘的汉诺塔问题,要把每一步都用文字输出,那得多少字啊?早就超过了苹果给模型设定的6万4千个输出词元上限。这不就是存心让人家输嘛?更别提市面上明明有12万8千词元模型的选项,他们偏不用。
而且那个评分标准,搞什么“全有或全无”,错一步就满盘皆输。这可太“一刀切”了,大语言模型平时可不是这么运作的,哪有这么“极度严格、毫不留情”的?这比我当年最严厉的数学老师还狠。老师顶多扣我几分,苹果这是直接判“死刑”。
所以,这篇论文背后到底打的什么算盘?明眼人一看就清楚。这论文发表的时间点,掐得也太“巧”了,正好是苹果全球开发者大会(WWDC)召开前三天。这操作,怎么看都像是在自家发布会前放个烟雾弹,转移一下大家对自己AI方面“毫无建树”的注意力。想想看,2021年苹果还是全球市值最高的公司,现在呢?都掉到第三了,被积极拥抱生成式AI的微软甩在后面。有人说苹果因为没搞好AI,可能“桌子上少了两万亿美元的市值”。这下子,为了自家那“苹果智能”被指控虚假宣传而面临的好几起集体诉讼,估计也是急了,赶紧先发制人,把整个AI领域都描黑一把,免得到时候WWDC上拿不出什么惊艳的东西,脸上挂不住。
这简直就是教科书级别的“把研究当武器”,目的就是忽悠公众,顺便迷惑一下那些股票分析师。你想啊,正经有分量的研究论文,哪个不是好几个公司、好几所大学一起合作的?苹果这篇倒好,清一色自家研究员。这种“单打独斗”的科研,含金量嘛,就得打个问号了。
所以,苹果论文里说的那个AI模型撞到的“墙”,其实就是他们自己用各种限制规则砌起来的一道虚影。这篇《思考的幻象》论文,真正的“幻象”,恐怕就是它本身。充其量就是一篇精心挑选、旨在糊弄人的“科学研究”,背后是冷冰冰、赤裸裸的市场策略。难怪整个科学AI研究圈子都对这篇论文相当不满,因为它基本上是想通过说别人的数据“被污染”来否定以往的研究成果。这吃相,可真不怎么好看。