视频不再只是播放,而是对话的开始
在大多数企业还在把视频当作宣传册或培训录像的时候,Kaltura已经悄悄掀开下一代人机交互的序幕。这家纳斯达克上市的视频平台巨头,刚刚以2700万美元收购了以色列AI初创公司eSelf.ai,目标很明确:让企业视频从“被动观看”变成“主动服务”。
这不是一次简单的技术叠加,而是一场从“容器”到“接口”的彻底转型。Kaltura不再满足于做企业视频的“仓库管理员”,而是要成为AI交互新入口的缔造者。
会说话的数字人?不,这是能“看懂你”的AI代理
市面上不少所谓的“AI数字人”,不过是预录语音配上自动对口型的动画——看起来像在说话,实则毫无交流能力。而eSelf.ai的技术完全不同。
这家成立于2023年的以色列公司,由前Snap系语音技术团队打造,虽然团队仅15人,却在实时语音识别、屏幕内容理解与视频生成三大领域实现了突破。它的虚拟人不只是“嘴在动”,更是“眼在看、耳在听、脑在想”。
想象这样一个场景:你在浏览一份复杂的保险产品页面,犹豫不决。这时,页面角落的数字客服不仅开口说话,还能“看到”你当前浏览的内容,主动解释条款差异,甚至根据你的鼠标停留时间判断兴趣点,动态调整讲解重点。
在培训系统中,当学员操作出错,AI导师能实时识别界面状态,像真人教练一样指出问题:“你刚才漏掉了权限设置这一步,让我再演示一遍。”这种基于上下文和视觉感知的实时对话,才是真正的智能交互。
Kaltura的野心:让视频成为企业的“AI面孔”
Kaltura CEO Ron Yekutiel直言:“我们不需要一个会说话的视频片段,我们需要的是能与用户进行双向、动态对话的AI代理。”
这番话背后,是Kaltura清晰的战略升级路径:
– 从前端:高拟真数字人作为企业服务的第一触点;
– 到中台:无缝对接CRM、知识库、学习管理系统(LMS)等核心业务系统;
– 再到后端:基于用户行为和屏幕上下文,实时生成个性化响应。
这套“全栈式视频智能”体系,将率先在销售引导、客户服务、员工培训等高价值场景落地。未来,企业官网的客服窗口可能不再是冷冰冰的聊天框,而是一个眼神专注、语气亲切、真正“懂你”的数字专家。
背后布局:盈利、扩张、拒绝被收购
尽管近期有媒体传出Kaltura正寻求以4亿至5亿美元估值出售,Yekutiel明确否认:“我们从未接近达成任何交易。”相反,公司财务状况稳健——2024年营收约1.8亿美元,已实现Adjusted EBITDA和现金流双盈利,员工规模达600人。
此次收购eSelf.ai,是Kaltura近十年来的第四次战略并购,此前已整合Tvinci、Rapt Media和Newrow等技术力量。每一次出手,都在强化其“视频+AI+交互”的三位一体能力。
更关键的是,eSelf团队将全员并入Kaltura,继续专注于对话式AI的研发与落地。接下来,教育、金融、医疗、电商等行业将成为首批重点渗透领域。
当视频有了“眼睛”和“嘴巴”,人机交互的临界点来了
从播放器到交互界面,从单向输出到双向对话,Kaltura正在重新定义企业视频的价值边界。
正如Yekutiel所说:“我们始于视频,进阶至个性化视频,如今通过eSelf,我们赋予AI以面孔、眼睛、耳朵和嘴巴。”
下一个十年,或许我们不再需要在APP里翻找帮助文档,只需抬头看向屏幕,就会有一个“看得懂、听得清、说得明”的数字人,微笑着问你:“需要我帮你吗?”