腾讯开源 HunyuanOCR,1B 参数达多项 SOTA 成绩
快速阅读: 腾讯混元11月25日宣布开源HunyuanOCR模型,参数量10亿,性能优越,支持多语种翻译,广泛应用于文档解析、票据处理等领域,提供高效轻量解决方案。
11月25日,腾讯混元正式宣布开源全新的OCR模型HunyuanOCR。该模型参数量仅为10亿(1B),基于混元原生多模态架构开发,在多个行业OCR应用榜单中取得SOTA(最先进水平)的成绩,为OCR技术的实际应用提供了轻量高效的解决方案。
HunyuanOCR采用了全端到端的设计范式,由原生分辨率视频编码器、自适应视觉适配器和轻量级混元语言模型三部分组成。其核心优势在于“高效便捷”:体积小,易于部署,单次前向推理即可达到最优效果,效率显著高于业界级联方案。
在性能表现上,HunyuanOCR尤为突出。在复杂文档解析的OmniDocBench测评中,HunyuanOCR以94.1分的成绩超过谷歌Gemini3-Pro等领先模型;在涵盖文档、手写、街景等九大场景的自建基准测试中,其文字检测和识别能力显著优于同类开源及商业模型;在OCRBench榜单上,HunyuanOCR以1B参数量获得总参数量3B以下模型的SOTA成绩,总得分为860分。此外,在小语种翻译领域,该模型支持14种常用小语种与中/英文互译,并在ICDAR2025端到端文档翻译比赛中夺得小模型赛道冠军。
在应用场景方面,HunyuanOCR能够实现多语种复杂文档解析、票据字段JSON格式提取、视频双语字幕自动抽取等功能,广泛应用于卡证处理、视频创作、跨境沟通等领域。目前,用户可以通过网页端、移动端链接或GitHub、Hugging Face的开源地址下载体验,直接访问Hugging Face空间即可快速试用。
地址: https://hunyuan.tencent.com/vision/zh?tabIndex=0 https://github.com/Tencent-Hunyuan/HunyuanOCR
(以上内容均由Ai生成)