砸钱、收购、发模型:Meta的AGI野望与V-JEPA 2的“蹒跚学步”

砸钱、收购、发模型:Meta的AGI野望与V-JEPA 2的“蹒跚学步”

Meta 这帮人最近又开始折腾了,目标直指那传说中的“通用人工智能”(AGI),据说还要砸出九位数的薪水抢人,真是财大气粗,也不知是真有突破,还是先画个大饼再说。他们还传言要花大价钱收购一家叫SALA的公司,看来是铁了心要在人工智能这条道上走到黑。

说起这人工智能,Meta的首席AI科学家杨先生亲自下场,给我们描绘了一个叫“世界模型”的东西。这可不是咱们平时玩的沙盘游戏,而是让AI在脑子里构建一个现实世界的数字拷贝。你想想,如果AI能像咱们一样,知道杯子掉地上会碎,皮球踢出去会滚,那它理解世界、规划任务的能力可就不是现在这些只会聊天的语言模型能比的了。这就好比,以前的AI是个只会背书的书呆子,现在的目标是培养一个能动手、会观察、懂思考的“全科生”。

他们最新推出的V-JEPA 2,就是朝着这个方向努力的成果。这家伙有12亿参数,专门用海量视频来“喂养”,让它自己琢磨世界是怎么运转的。比如,它能看着视频学会预测下一步会发生什么,演示者打开冰箱,它就能猜到接下来可能是拿出瓶子,然后关上冰箱门。听起来是不是有点像咱们看侦探片,总想比主角先一步猜到凶手是谁?V-JEPA 2在机器人控制方面的进步尤其明显,抓取东西的成功率从可怜的8%一下子飙到了45%,拾取和放置更是从13%飞跃到73%。我仿佛看到我家那个扫地机器人,终于有希望不再跟我的拖鞋“深情拥吻”了,而是能精准地绕开它。

为了训练这V-JEPA 2,Meta也是下了血本,先是用超过100万小时的视频和100万张图片进行“无动作预训练”,让模型理解人和物体的互动。然后,再用仅仅62小时的机器人数据进行“动作条件训练”,教会它如何规划和控制。最神的是,这模型还能在新环境里进行“零样本规划”,也就是说,有些东西它在训练时压根没见过,也能硬着头皮去尝试完成任务。Meta说,把这模型直接部署到实验室的机器人上,抓取、拿起、放置这些基本操作都能搞定。这让我想起我第一次学骑自行车,也是在无数次摔倒和自我怀疑中,突然就掌握了平衡,V-JEPA 2的这个过程,大概也是异曲同工吧,只不过它的“摔倒”成本要低得多。

当然,Meta也挺实在,搞了几个新的基准测试来检验这些模型的能耐,结果发现,虽然V-JEPA 2这些顶级模型进步神速,但在理解物理世界的常识方面,跟咱们人类比起来,那差距还是相当明显的。比如有个测试,让模型判断视频里的场景是不是符合物理规律,结果模型表现得跟瞎猜差不多,而咱们人类几乎都能完美达成。这就好比,你教一个孩子背会了所有的交通规则,但他走到马路边,还是不知道红灯停绿灯行一样。看来,想让AI真正拥有咱们这样的直觉和常识,路还长着呢。

Meta下一步的计划,是搞出能在多个时间尺度上学习和预测的世界模型,还要融合视觉、听觉、触觉等多种感官信息。听上去雄心勃勃,但愿别又是雷声大雨点小。毕竟,从能看懂视频里的人在跳水,到真正理解跳水运动员每一个动作背后的物理原理和意图,再到自己能规划出一个完美的跳水动作,这中间的鸿沟,可不是光靠砸钱和堆数据就能轻易填平的。我们就拭目以待,看看Meta这次能不能给我们带来一些真正的惊喜,而不是又一个听起来很美、用起来“嗯?”的故事。