快手发布“善看会想”新模型 Keye-VL:6710亿参数重塑多模态智能边界


一场关于“看”与“想”的AI进化

在人工智能的赛道上,谁能真正实现“看懂世界,想清问题”,谁就握住了通向未来的关键钥匙。近日,快手交出了一份令人瞩目的答卷——正式发布其新一代旗舰级多模态大模型 Keye-VL-671B-A37B,并同步开源代码。这不仅是一次技术升级,更是一场关于视觉理解与复杂推理能力的全面跃迁。

这款被官方称为“善看会想”的模型,凭借在通用视觉理解、视频分析和数学推理等多项权威基准测试中的卓越表现,迅速吸引了业界关注。它不再只是“识别图像”,而是开始“理解场景”、“推理逻辑”,甚至为解决复杂任务打下坚实基础。

背后架构:视觉与语言的深度交响

Keye-VL-671B-A37B 的强大并非偶然。其技术底座建立在 DeepSeek-V3-Terminus 这一高性能大语言模型之上,通过一个精心设计的 MLP 层与自研视觉编码器 KeyeViT 实现高效连接。而 KeyeViT 本身,则是在前代模型 Keye-VL-1.5 的基础上进一步优化而来,确保了视觉感知能力的延续与进化。

整个预训练过程分为三个阶段,层层递进:

  1. 冻结参数对齐:先固定视觉与语言模型的参数,进行初步跨模态对齐,让“眼睛”和“大脑”学会协同工作;
  2. 全参数联合训练:开放所有参数,在大规模数据上进行全面融合训练,提升整体语义一致性;
  3. 高质量退火精调:最后在更高品质的数据集上进行退火训练,显著增强模型对细节的敏感度和理解深度。

支撑这一切的是高达 3000亿 token 的严格筛选高质量多模态数据。这套系统化的训练策略,在保障强大视觉理解能力的同时,也有效控制了计算资源消耗,体现了工程与科学的平衡之美。

从“看懂”到“会用”:后训练打造真智能

训练只是起点。为了让模型真正“可用”,快手还设计了一套完整的后训练流程,涵盖 监督微调、冷启动优化与强化学习 等多个阶段。训练任务覆盖广泛,包括:

  • 视觉问答(VQA)
  • 图表信息提取与分析
  • 富文本 OCR 理解
  • 多跳推理与逻辑推导

这些任务让 Keye-VL 不仅能回答“图里有什么”,更能回答“这意味着什么”、“接下来会发生什么”。

未来方向:迈向“会用工具”的多模态智能体

快手对 Keye-VL 的愿景远不止于一个“聪明的模型”。他们正在推动其向 多模态 Agent 演进——即一个能主动调用外部工具、自主完成复杂任务的智能体。

未来的 Keye-VL 将强化 多轮工具调用能力,例如自动搜索网络信息、调用计算器解决数学题、或从视频中提取关键帧进行时序推理。这意味着,面对“请分析这段直播回放中的用户情绪变化趋势”这样的问题,模型将能自主拆解任务、调用工具、整合信息并给出结构化答案。

与此同时,团队还将深入探索 “think with image”“think with video” 的前沿方向——让模型不仅能看图说话,还能围绕图像展开链式思考,像人类一样“边看边想”,实现真正的视觉思维闭环。

结语:双轮驱动,奔向下一代多模态系统

通过 基础模型能力Agent 智能能力 的双轮驱动,快手正致力于将 Keye-VL 打造成更通用、更可靠、更具推理深度的下一代多模态系统。此次发布不仅是技术实力的展示,更是对多模态 AI 未来发展路径的一次清晰描绘。

当AI开始真正“善看会想”,我们离一个能理解真实世界的智能时代,又近了一步。