AI数字人时代降临：Kaltura豪掷2700万美元，让企业视频“活”起来

视频不再只是播放，而是对话的开始

在大多数企业还在把视频当作宣传册或培训录像的时候，Kaltura已经悄悄掀开下一代人机交互的序幕。这家纳斯达克上市的视频平台巨头，刚刚以2700万美元收购了以色列AI初创公司eSelf.ai，目标很明确：让企业视频从“被动观看”变成“主动服务”。

这不是一次简单的技术叠加，而是一场从“容器”到“接口”的彻底转型。Kaltura不再满足于做企业视频的“仓库管理员”，而是要成为AI交互新入口的缔造者。

市面上不少所谓的“AI数字人”，不过是预录语音配上自动对口型的动画——看起来像在说话，实则毫无交流能力。而eSelf.ai的技术完全不同。

这家成立于2023年的以色列公司，由前Snap系语音技术团队打造，虽然团队仅15人，却在实时语音识别、屏幕内容理解与视频生成三大领域实现了突破。它的虚拟人不只是“嘴在动”，更是“眼在看、耳在听、脑在想”。

想象这样一个场景：你在浏览一份复杂的保险产品页面，犹豫不决。这时，页面角落的数字客服不仅开口说话，还能“看到”你当前浏览的内容，主动解释条款差异，甚至根据你的鼠标停留时间判断兴趣点，动态调整讲解重点。

在培训系统中，当学员操作出错，AI导师能实时识别界面状态，像真人教练一样指出问题：“你刚才漏掉了权限设置这一步，让我再演示一遍。”这种基于上下文和视觉感知的实时对话，才是真正的智能交互。

Kaltura CEO Ron Yekutiel直言：“我们不需要一个会说话的视频片段，我们需要的是能与用户进行双向、动态对话的AI代理。”

这番话背后，是Kaltura清晰的战略升级路径：
– 从前端：高拟真数字人作为企业服务的第一触点；
– 到中台：无缝对接CRM、知识库、学习管理系统（LMS）等核心业务系统；
– 再到后端：基于用户行为和屏幕上下文，实时生成个性化响应。

这套“全栈式视频智能”体系，将率先在销售引导、客户服务、员工培训等高价值场景落地。未来，企业官网的客服窗口可能不再是冷冰冰的聊天框，而是一个眼神专注、语气亲切、真正“懂你”的数字专家。

尽管近期有媒体传出Kaltura正寻求以4亿至5亿美元估值出售，Yekutiel明确否认：“我们从未接近达成任何交易。”相反，公司财务状况稳健——2024年营收约1.8亿美元，已实现Adjusted EBITDA和现金流双盈利，员工规模达600人。

此次收购eSelf.ai，是Kaltura近十年来的第四次战略并购，此前已整合Tvinci、Rapt Media和Newrow等技术力量。每一次出手，都在强化其“视频+AI+交互”的三位一体能力。

更关键的是，eSelf团队将全员并入Kaltura，继续专注于对话式AI的研发与落地。接下来，教育、金融、医疗、电商等行业将成为首批重点渗透领域。

从播放器到交互界面，从单向输出到双向对话，Kaltura正在重新定义企业视频的价值边界。

正如Yekutiel所说：“我们始于视频，进阶至个性化视频，如今通过eSelf，我们赋予AI以面孔、眼睛、耳朵和嘴巴。”

下一个十年，或许我们不再需要在APP里翻找帮助文档，只需抬头看向屏幕，就会有一个“看得懂、听得清、说得明”的数字人，微笑着问你：“需要我帮你吗？”