腾讯发布1B参数HunyuanOCR,多项SOTA成果
快速阅读: 腾讯发布HunyuanOCR,参数量1B,采用端到端设计,在OCR应用中取得SOTA成绩,支持14种语言翻译,适用于复杂文档解析、票据抽取等多场景。
近日,腾讯正式推出了其全新的开源模型 HunyuanOCR,参数量仅为1B。该模型基于腾讯独创的混元多模态架构设计,在多个行业标准的OCR应用中取得了SOTA(最先进水平)的成绩。腾讯方面表示,HunyuanOCR的“端到端”设计理念使得模型的各项功能在一次前向推理中即可快速获得最优结果。
HunyuanOCR主要由三大核心组件构成:原生分辨率视频编码器、自适应视觉适配轻量化混元语言模型。与其他OCR模型不同,Hunyuan采用了全端到端的训练和推理方式,通过大规模的应用导向数据及在线强化学习,展现出出色的推理能力。
在复杂文档解析的测试中,HunyuanOCR以94.1的高分超越了包括谷歌Gemini3-pro在内的多个领先模型。其文字检测和识别能力非常突出,涵盖了文档、艺术字、街景、手写、广告、票据等多种应用场景,相较于其他开源及商业OCR模型表现优异,在OCR中总得分高达860分,成为总参数3B以下模型中的佼佼者。
此外,HunyuanOCR还支持14种语言的翻译功能,在翻译领域表现卓越。该模型能够对复杂的文档进行电子化处理,将扫描件或拍摄图片中的文本按阅读顺序组织,并能使用LaTeX格式表示公式,HTML格式表示复杂表格。
应用方面,HunyuanOCR适合进行多语种文档解析、票据字段抽取、视频字幕识别及拍照翻译等任务,展示了广泛的应用潜力。GitHub链接:https://github.com/Tencent-Hunyuan/HunyuanOCR
– HunyuanOCR模型参数量为1B,通过端到端设计实现了多项SOTA成果。
– 该模型支持复杂文档解析、文字检测及识别,覆盖多种应用场景。
– HunyuanOCR具备14小语种翻译能力,特别适用于拍照翻译功能。
(以上内容均由Ai生成)