作加

蚂蚁集团悄然上线“灵光”:一款能看懂世界的AI相机应用来了


一款会“思考”的相机?蚂蚁推出全新多模态App“灵光”

科技圈最近又迎来一枚重磅炸弹——蚂蚁集团悄然发布了一款名为 “灵光” 的全新AI应用,正通过腾讯应用宝、vivo应用商店等平台低调开启内测。这款App不仅支持手机号登录,还能直接用支付宝账号一键接入,体验门槛极低,却暗藏“大智慧”。

最引人注目的,是它内置的 “AGI相机” 功能。这可不是普通的拍照工具,而是一个能“看懂”现实世界的AI之眼。你只需打开相机对准某个场景——比如一份合同、一道数学题,甚至街边的一块招牌——系统就能实时识别内容,并直接回答你的问题。拍即问,问即答,整个过程几乎无缝衔接。

不只是识别,更是“理解”

业内普遍认为,“灵光”的图像交互能力与字节跳动的豆包App、阿里的元宝App存在一定功能重叠。但据知情人士透露,“灵光”更强调‘认知层的理解’——这意味着它不仅能“看到”画面中的物体,更能结合上下文进行推理与判断,实现更高阶的多模态智能。

举个例子:当你拍摄一张餐厅菜单时,普通图像识别只能告诉你上面写了什么菜名;而“灵光”或许能进一步分析菜品成分、推荐搭配,甚至结合你的健康数据提出饮食建议。这种从“感知”到“认知”的跃迁,正是迈向通用人工智能(AGI)的关键一步。

蚂蚁的AGI布局,早已悄然铺开

别以为这是蚂蚁的突然发力。事实上,他们在多模态与AGI领域的技术积累已持续数月:

  • 今年4月底,蚂蚁实现了图像理解与生成的统一架构突破,为后续多模态交互打下基础;
  • 5月份,团队开源了 Ming-Lite-omni-Preview 模型,成为全球首个在语音、图像的生成与理解能力上可对标 GPT-4o 的开源模型。

这一系列动作表明,蚂蚁并非简单地推出一款AI拍照App,而是正在构建一个面向未来的多模态AI生态。“灵光”很可能是这个宏大图景的第一枚落地棋子。

目前,“灵光”仍处于邀约制内测阶段,尚未全面开放。但可以预见的是,随着AGI相机能力的不断进化,我们与数字世界的交互方式,或将被彻底改写。