作加

视觉大模型新突破:百度Qianfan-VL全尺寸开源,OCR与数学解题能力亮眼


百度发布Qianfan-VL视觉模型,三大尺寸满足企业多元需求

近日,百度智能云千帆团队正式推出全新视觉理解模型——Qianfan-VL,并宣布全面开源。这款模型涵盖3B、8B和70B三种参数规模,面向不同体量的企业和开发者,适配多种多模态应用场景。

多尺寸选择,适配广泛场景

Qianfan-VL的一大亮点在于其多尺寸设计。3B版本适合资源有限的轻量级部署,8B版本在性能与效率之间取得平衡,而70B版本则面向高精度、高复杂度任务,满足企业对视觉理解能力的深度需求。

专项能力强化,OCR与教育场景表现突出

除了基础视觉理解能力,Qianfan-VL还针对行业高频需求进行了优化,特别是在光学字符识别(OCR)和教育类应用方面表现亮眼。它不仅能识别印刷体、手写体文字,还能处理复杂版面布局,并进行信息结构化提取,极大提升了文档处理的智能化水平。

此外,8B和70B版本还具备视觉推理能力,通过特殊token激活,可理解复杂图表、进行视觉推理和数学解题,适用于教学辅助、试卷分析、科研图表解析等高阶任务。

昆仑芯加持,全流程自研保障性能

Qianfan-VL基于开源模型开发,但整个训练和优化流程都在百度自研芯片——昆仑芯P800上完成。这不仅保证了模型训练的高效性,也体现了百度在软硬一体协同优化上的深厚积累。

基准测试成绩亮眼,通用与专业能力兼备

在多项视觉理解基准测试中,Qianfan-VL展现出卓越的通用性和专业表现。无论是在图像理解、多模态问答,还是在OCR和文档分析等特定任务中,其准确率和稳定性都令人印象深刻。

值得一提的是,8B和70B版本在数学解题方面表现出色,能够结合视觉信息与外部知识进行推理,为企业提供智能决策支持。例如,在考试题解析、财务报表分析等场景中,Qianfan-VL都能快速提取关键信息并生成结构化输出。

开源开放,助力行业落地

Qianfan-VL的全面开源,标志着百度在视觉理解领域迈出关键一步。随着其在教育、金融、医疗、政务等行业的逐步落地,有望推动新一轮AI应用创新浪潮。

官方介绍:https://baidubce.github.io/Qianfan-VL/
项目地址:https://github.com/baidubce/Qianfan-VL