百度PaddleOCR-VL登顶全球OCR榜,连续五天领跑趋势
快速阅读: 百度飞桨发布PaddleOCR-VL,参数规模0.9B,在OmniDocBench V1.5评测中得分92.56,超越所有主流模型。支持109种语言识别,具备文档语义结构重建能力,连续5天位居Huggingface全球模型趋势榜榜首。
10月16日,百度飞桨(PaddlePaddle)团队正式发布了最新视觉语言模型PaddleOCR-VL,一经上线便在全球OCR(光学字符识别)领域引起轰动。该模型以0.9B参数规模,在权威评测OmniDocBench V1.5中获得92.56分的成绩,超越包括DeepSeek-OCR在内的所有主流模型,成功登顶全球OCR榜单。
截至10月21日,Huggingface全球模型趋势榜(Trending Models)前三名均为OCR模型:冠军PaddleOCR-VL(百度飞桨),亚军DeepSeek-OCR,季军NanonetOCR。其中,百度的PaddleOCR-VL已连续5天位居榜首,成为当前最受关注的开源OCR模型。
PaddleOCR-VL支持109种语言识别,能够精准解析文本、表格、公式与图表,并具备文档语义结构重建能力。这意味着它不仅能够“识字”,还能“读懂”复杂文档内容,在科研论文、发票识别、知识抽取等领域展现出极高的实用价值。
值得注意的是,DeepSeek团队在其论文中特别致谢PaddleOCR,并透露其训练数据部分使用了PaddleOCR进行标注。这一细节揭示了当前业界OCR模型繁荣背后的真实逻辑:百度、DeepSeek与上海AI Lab等机构几乎同时开源OCR模型,目的不仅在于比拼识别性能,更是为了大模型训练清洗、标注数据提供基础能力。
换句话说,这场“OCR军备竞赛”的核心,不仅是比拼谁的识别更准确,更重要的是谁能更快地让AI理解世界上的文字与图像。
(以上内容均由Ai生成)