IBM发布轻量级AI模型,文件转换更高效准确
快速阅读: IBM推出轻量级视觉语言AI模型Granite-Docling-258M,专为文件转换设计,支持多语言,提升文档处理效率与准确性,尤其在OCR识别准确度上表现突出,能识别多种文档元素并保留原版面结构。
近日,IBM 正式推出了一款名为 Granite-Docling-258M 的轻量级视觉语言 AI 模型。该模型专门针对文件转换设计,具备强大的多语言支持能力,涵盖中文、阿拉伯语和日语,旨在提高文档处理的效率与准确性。Granite-Docling-258M 拥有2.58亿参数,是专为文档表格处理优化的模型。
与传统 OCR 软件相比,Granite-Docling-258M 在识别准确度方面表现出显著优势。它不仅能完整保留原始文档的版面结构,还能有效识别表格、数学公式、列表和代码块等多种元素。这一新技术的核心在于 IBM Research 开发的 DocTags,这是一种通用文件结构标记语言,能够精准描述页面元素的类型、位置及阅读顺序。
在文档转换过程中,Granite-Docling-258M 首先识别文档中的各元素,然后进行 OCR 识别。这种处理方法使得内容的提取和输出更为高效和准确。转换完成后,用户可将内容导出为 Markdown、JSON、HTML 等多种格式,以满足不同需求。此外,IBM 计划将 DocTags 词汇表整合到 Granite 的分词器和训练流程中,以进一步提升模型性能。
目前,尽管 Granite-Docling-258M 尚未达到企业级应用标准,但 IBM 表示将继续扩大语言覆盖范围,并提升模型的可靠性。未来,IBM 还将致力于增强 DocTags 与 IBM watsonx.ai 模型的兼容性,确保技术的广泛应用。
这款新模型的发布,无疑为文档处理领域提供了新的技术选项,同时也为相关行业效率的提升提供了强有力的支持。
(以上内容均由Ai生成)