一场关于“看”与“想”的AI进化
在人工智能的赛道上,谁能真正实现“看懂世界,想清问题”,谁就握住了通向未来的关键钥匙。近日,快手交出了一份令人瞩目的答卷——正式发布其新一代旗舰级多模态大模型 Keye-VL-671B-A37B,并同步开源代码。这不仅是一次技术升级,更是一场关于视觉理解与复杂推理能力的全面跃迁。
这款被官方称为“善看会想”的模型,凭借在通用视觉理解、视频分析和数学推理等多项权威基准测试中的卓越表现,迅速吸引了业界关注。它不再只是“识别图像”,而是开始“理解场景”、“推理逻辑”,甚至为解决复杂任务打下坚实基础。
背后架构:视觉与语言的深度交响
Keye-VL-671B-A37B 的强大并非偶然。其技术底座建立在 DeepSeek-V3-Terminus 这一高性能大语言模型之上,通过一个精心设计的 MLP 层与自研视觉编码器 KeyeViT 实现高效连接。而 KeyeViT 本身,则是在前代模型 Keye-VL-1.5 的基础上进一步优化而来,确保了视觉感知能力的延续与进化。
整个预训练过程分为三个阶段,层层递进:
- 冻结参数对齐:先固定视觉与语言模型的参数,进行初步跨模态对齐,让“眼睛”和“大脑”学会协同工作;
- 全参数联合训练:开放所有参数,在大规模数据上进行全面融合训练,提升整体语义一致性;
- 高质量退火精调:最后在更高品质的数据集上进行退火训练,显著增强模型对细节的敏感度和理解深度。
支撑这一切的是高达 3000亿 token 的严格筛选高质量多模态数据。这套系统化的训练策略,在保障强大视觉理解能力的同时,也有效控制了计算资源消耗,体现了工程与科学的平衡之美。
从“看懂”到“会用”:后训练打造真智能
训练只是起点。为了让模型真正“可用”,快手还设计了一套完整的后训练流程,涵盖 监督微调、冷启动优化与强化学习 等多个阶段。训练任务覆盖广泛,包括:
- 视觉问答(VQA)
- 图表信息提取与分析
- 富文本 OCR 理解
- 多跳推理与逻辑推导
这些任务让 Keye-VL 不仅能回答“图里有什么”,更能回答“这意味着什么”、“接下来会发生什么”。
未来方向:迈向“会用工具”的多模态智能体
快手对 Keye-VL 的愿景远不止于一个“聪明的模型”。他们正在推动其向 多模态 Agent 演进——即一个能主动调用外部工具、自主完成复杂任务的智能体。
未来的 Keye-VL 将强化 多轮工具调用能力,例如自动搜索网络信息、调用计算器解决数学题、或从视频中提取关键帧进行时序推理。这意味着,面对“请分析这段直播回放中的用户情绪变化趋势”这样的问题,模型将能自主拆解任务、调用工具、整合信息并给出结构化答案。
与此同时,团队还将深入探索 “think with image” 和 “think with video” 的前沿方向——让模型不仅能看图说话,还能围绕图像展开链式思考,像人类一样“边看边想”,实现真正的视觉思维闭环。
结语:双轮驱动,奔向下一代多模态系统
通过 基础模型能力 与 Agent 智能能力 的双轮驱动,快手正致力于将 Keye-VL 打造成更通用、更可靠、更具推理深度的下一代多模态系统。此次发布不仅是技术实力的展示,更是对多模态 AI 未来发展路径的一次清晰描绘。
当AI开始真正“善看会想”,我们离一个能理解真实世界的智能时代,又近了一步。