腾讯开源 HunyuanOCR，1B 参数达多项 SOTA 成绩

发布时间：2025年11月25日来源：szf

快速阅读: 腾讯混元11月25日宣布开源HunyuanOCR模型，参数量10亿，性能优越，支持多语种翻译，广泛应用于文档解析、票据处理等领域，提供高效轻量解决方案。

11月25日，腾讯混元正式宣布开源全新的OCR模型HunyuanOCR。该模型参数量仅为10亿（1B），基于混元原生多模态架构开发，在多个行业OCR应用榜单中取得SOTA（最先进水平）的成绩，为OCR技术的实际应用提供了轻量高效的解决方案。

HunyuanOCR采用了全端到端的设计范式，由原生分辨率视频编码器、自适应视觉适配器和轻量级混元语言模型三部分组成。其核心优势在于“高效便捷”：体积小，易于部署，单次前向推理即可达到最优效果，效率显著高于业界级联方案。

在性能表现上，HunyuanOCR尤为突出。在复杂文档解析的OmniDocBench测评中，HunyuanOCR以94.1分的成绩超过谷歌Gemini3-Pro等领先模型；在涵盖文档、手写、街景等九大场景的自建基准测试中，其文字检测和识别能力显著优于同类开源及商业模型；在OCRBench榜单上，HunyuanOCR以1B参数量获得总参数量3B以下模型的SOTA成绩，总得分为860分。此外，在小语种翻译领域，该模型支持14种常用小语种与中/英文互译，并在ICDAR2025端到端文档翻译比赛中夺得小模型赛道冠军。

在应用场景方面，HunyuanOCR能够实现多语种复杂文档解析、票据字段JSON格式提取、视频双语字幕自动抽取等功能，广泛应用于卡证处理、视频创作、跨境沟通等领域。目前，用户可以通过网页端、移动端链接或GitHub、Hugging Face的开源地址下载体验，直接访问Hugging Face空间即可快速试用。

地址: https://hunyuan.tencent.com/vision/zh?tabIndex=0 https://github.com/Tencent-Hunyuan/HunyuanOCR

(以上内容均由Ai生成)