砸钱、收购、发模型：Meta的AGI野望与V-JEPA 2的“蹒跚学步”

Meta 这帮人最近又开始折腾了，目标直指那传说中的“通用人工智能”（AGI），据说还要砸出九位数的薪水抢人，真是财大气粗，也不知是真有突破，还是先画个大饼再说。他们还传言要花大价钱收购一家叫SALA的公司，看来是铁了心要在人工智能这条道上走到黑。

说起这人工智能，Meta的首席AI科学家杨先生亲自下场，给我们描绘了一个叫“世界模型”的东西。这可不是咱们平时玩的沙盘游戏，而是让AI在脑子里构建一个现实世界的数字拷贝。你想想，如果AI能像咱们一样，知道杯子掉地上会碎，皮球踢出去会滚，那它理解世界、规划任务的能力可就不是现在这些只会聊天的语言模型能比的了。这就好比，以前的AI是个只会背书的书呆子，现在的目标是培养一个能动手、会观察、懂思考的“全科生”。

他们最新推出的V-JEPA 2，就是朝着这个方向努力的成果。这家伙有12亿参数，专门用海量视频来“喂养”，让它自己琢磨世界是怎么运转的。比如，它能看着视频学会预测下一步会发生什么，演示者打开冰箱，它就能猜到接下来可能是拿出瓶子，然后关上冰箱门。听起来是不是有点像咱们看侦探片，总想比主角先一步猜到凶手是谁？V-JEPA 2在机器人控制方面的进步尤其明显，抓取东西的成功率从可怜的8%一下子飙到了45%，拾取和放置更是从13%飞跃到73%。我仿佛看到我家那个扫地机器人，终于有希望不再跟我的拖鞋“深情拥吻”了，而是能精准地绕开它。

为了训练这V-JEPA 2，Meta也是下了血本，先是用超过100万小时的视频和100万张图片进行“无动作预训练”，让模型理解人和物体的互动。然后，再用仅仅62小时的机器人数据进行“动作条件训练”，教会它如何规划和控制。最神的是，这模型还能在新环境里进行“零样本规划”，也就是说，有些东西它在训练时压根没见过，也能硬着头皮去尝试完成任务。Meta说，把这模型直接部署到实验室的机器人上，抓取、拿起、放置这些基本操作都能搞定。这让我想起我第一次学骑自行车，也是在无数次摔倒和自我怀疑中，突然就掌握了平衡，V-JEPA 2的这个过程，大概也是异曲同工吧，只不过它的“摔倒”成本要低得多。

当然，Meta也挺实在，搞了几个新的基准测试来检验这些模型的能耐，结果发现，虽然V-JEPA 2这些顶级模型进步神速，但在理解物理世界的常识方面，跟咱们人类比起来，那差距还是相当明显的。比如有个测试，让模型判断视频里的场景是不是符合物理规律，结果模型表现得跟瞎猜差不多，而咱们人类几乎都能完美达成。这就好比，你教一个孩子背会了所有的交通规则，但他走到马路边，还是不知道红灯停绿灯行一样。看来，想让AI真正拥有咱们这样的直觉和常识，路还长着呢。

Meta下一步的计划，是搞出能在多个时间尺度上学习和预测的世界模型，还要融合视觉、听觉、触觉等多种感官信息。听上去雄心勃勃，但愿别又是雷声大雨点小。毕竟，从能看懂视频里的人在跳水，到真正理解跳水运动员每一个动作背后的物理原理和意图，再到自己能规划出一个完美的跳水动作，这中间的鸿沟，可不是光靠砸钱和堆数据就能轻易填平的。我们就拭目以待，看看Meta这次能不能给我们带来一些真正的惊喜，而不是又一个听起来很美、用起来“嗯？”的故事。

砸钱、收购、发模型：Meta的AGI野望与V-JEPA 2的“蹒跚学步”

更多文章

浏览器里的AI助手：Perplexity Comet如何提升企业效率

AI音乐革命再升级：Suno v5即将发布，创作边界彻底重构

AI 助手降临 Chrome：谷歌这次要如何改变我们的上网方式？

AI视频生成新势力崛起：生数科技融资数亿，引领内容创作革命