百度发布Qianfan-VL模型，多尺寸满足不同场景需求

发布时间：2025年9月23日来源：szf

快速阅读: 百度智能云发布Qianfan-VL视觉理解模型，全面开源，提供3B、8B、70B三种规格，专长OCR和教育应用，具备复杂图表理解和数学解题能力，显著提升视觉理解性能。

百度智能云千帆团队正式发布了全新的视觉理解模型——Qianfan-VL，并宣布全面开源。该系列模型提供3B、8B和70B三种不同尺寸，旨在满足企业级多模态应用需求，经过深度优化，展现出卓越的视觉理解能力。

Qianfan-VL不仅具备坚实的基础能力，还针对行业高频需求进行了专项提升，例如光学字符识别（OCR）和教育场景应用，从而在实际使用中表现出色。该模型基于开源模型开发，并在百度自主研发的昆仑芯P800上完成了全流程计算，强大的算力支持确保模型能高效处理复杂数据和算法。

这款新模型具有三个显著特点。首先，多尺寸选择满足了不同规模企业和开发者的多样化需求，3B、8B和70B三种规格覆盖了广泛的应用场景。其次，8B和70B模型具备思考推理能力，通过特殊token激活，能够处理复杂图表理解、视觉推理和数学解题等任务。最后，Qianfan-VL在OCR和文档理解方面表现出色，不仅能够精准识别手写体和复杂版面，还能进行信息的结构化提取。

在基准测试中，Qianfan-VL系列模型展示了出色的通用能力和特定任务的优秀表现。无论是视觉理解还是专业领域的问答，该模型在各项测试中均显示出令人印象深刻的精确度和性能。特别是在OCR与文档理解领域，其全场景识别能力和复杂文档分析能力，为企业级应用提供了高精度的解决方案。

此外，Qianfan-VL的数学解题能力同样引人注目，8B和70B模型在处理复杂推理任务时，结合视觉信息与外部知识，展现出了优越的性能。在实际应用场景中，它可以提取关键信息并进行数据分析，助力企业做出智能决策。

Qianfan-VL的发布标志着百度在视觉理解领域取得的重大突破，预计其在各行业的广泛应用将引发新一轮的技术革新。更多详情参见官方介绍：https://baidubce.github.io/Qianfan-VL 项目地址：https://github.com/baidubce/Qianfan-VL

(以上内容均由Ai生成)