百度发布轻量高效PaddleOCR-VL，领跑全球OCR技术

发布时间：2025年10月17日来源：szf

快速阅读: 百度发布开源多模态文档解析模型PaddleOCR-VL，以92.6分荣登国际评测榜首，支持109种语言，具备轻量高效特性，适用于多种智能文档处理任务。

近日，百度正式发布了其自主研发的多模态文档解析模型 PaddleOCR-VL 并将其开源。此模型在国际权威的文档解析评测榜单 OmniBenchDoc V1.5 中，以92.6分的成绩荣登综合性能全球榜首，展现了其在文本、表格、公式和阅读顺序四大核心能力上的卓越表现。

PaddleOCR-VL 的核心模型参数仅为0.9B，具备轻量高效的特性，能在极低的计算成本下，准确识别文本、手写汉字、表格、公式及图表等复杂元素。该模型支持109种语言，包括中文、英语、法语、日语、俄语、阿拉伯语和西班牙语等，适用于政企文档管理、知识检索、档案数字化及科研信息抽取等多种智能文档处理任务。

作为文心4.5的衍生模型，PaddleOCR-VL-0.9B 通过整合 NaViT 动态分辨率视觉编码器与 ERNIE-4.5-0.3B 语言模型，实现了精度和效率的双重突破。具体来说，该模型在 OmniDocBench v1.5 上的表现尤为突出，文本编辑距离为0.035，公式识别的 CDM 为91.43，表格的 TEDS 达到93.52，阅读顺序预测误差值为0.043，这些数据证明了其在复杂文档、手写稿及历史档案识别等高难度场景中的稳定性和可靠性。

在推理速度方面，PaddleOCR-VL 在单张 A100 GPU 上每秒可处理1881个 Token，相比其他主流模型，推理速度有显著提升，比 MinerU2.5 快14.2%，比 dots.ocr 提升了253.01%。这一表现确立了 PaddleOCR-VL 在 OCR 技术领域的领先地位。

与传统 OCR 技术不同，PaddleOCR-VL 能像人一样理解复杂的版面结构，精确提取财报表格、数学公式和课堂笔记等多元信息，并自动恢复符合人类阅读习惯的顺序，确保信息传达的准确性和逻辑的清晰性。其创新的两阶段架构，第一阶段负责版面检测与阅读顺序预测，第二阶段则进行文本、表格、公式等元素的识别与结构化输出，这种设计显著提高了识别的稳定性和效率。

(以上内容均由Ai生成)