Mistral 发布新的光学字符识别（OCR） API，声称全球性能最高

快速阅读: 据《VentureBeat 公司》称，魔力AI推出新型光学字符识别（OCR）API——魔力OCR，支持多语言处理并与大型语言模型集成，旨在提高文档理解和处理能力。该API在数学识别和多语言文本处理方面表现优异，速度达每分钟2000页，适用于大量文档处理。价格为每1000页1美元，已在拉·平台上线。

加入我们的每日和每周通讯，获取最新行业领先的AI覆盖资讯和独家内容。了解更多资金充足的法国AI初创公司魔力AI选择独立发展。在众多竞争的推理模型中，该公司今天推出了魔力OCR，这是一种新的光学字符识别（OCR）API，旨在提供高级文档理解能力。该API以高精度从无结构PDF和图像中提取内容，包括手写笔记、打印文本、图像、表格和方程式，并以结构化格式呈现。结构化数据是指按照预定义方式组织的信息，通常以行列形式呈现，便于搜索和分析。常见的例子包括存储在数据库或电子表格中的姓名、地址和财务交易。相比之下，无结构数据没有特定的格式或结构，这使得处理和分析更加困难。这一类别包括电子邮件、社交媒体帖子、视频、图像和音频文件等多种数据类型。由于无结构数据难以整齐地存入传统数据库，因此经常需要使用自然语言处理和机器学习等专门工具和技术来提取有价值的见解。了解这些数据类型的差别对企业有效管理和利用其信息资产至关重要。

魔力OCR支持多语言处理，处理速度快，并与大型语言模型集成以进行文档理解，旨在帮助企业使其文档具备AI处理能力。鉴于魔力AI在其博客文章中宣布新API时提到，所有商业信息中有90%是无结构的，新API应成为帮助组织实现数据数字化和编目以用于AI应用或内部/外部知识库的巨大助力。OCR的新标杆魔力OCR旨在改进企业处理和分析复杂文档的方式。与主要关注文本提取的传统OCR解决方案不同，魔力OCR设计用于解析各种文档排版元素和字符，包括表格、数学表达式和交错图像，同时保持结构化输出。据魔力AI首席科学官吉拉姆·兰普尔称，这项技术代表了企业在广泛应用AI方面迈出的重要一步，特别是对于希望简化访问内部文档的公司。该API已集成到乐查特，在那里数百万用户依靠它进行文档处理。现在，随着魔力OCR最新版本的发布，开发人员和企业可以通过拉·平台，即魔力AI的开发者套件，访问该模型。预计该API还将通过云和推理合作伙伴提供服务，并为有高安全需求的组织提供本地部署选项。

推动早期（70年历史）的计算技术第一台商用OCR机器由大卫·希瑟和他的同事哈维和威廉·劳勒斯在1950年代开发，他们成立了智能机器研究公司（IMR）将这项技术推向市场。当《读者文摘》成为其首个大客户后，该系统开始流行，随后是银行、AT&T等电信公司以及主要石油公司。自此以来，OCR技术不断发展，引入人工智能和机器学习以提高准确性、扩展语言支持并处理日益复杂的文档格式，并已在诸如Adobe Acrobat等领先的企业软件中得到应用。魔力OCR代表了这一发展的下一步，利用AI提升文档理解能力，超越简单的文本识别。基准测试表明魔力OCR的强大之处魔力AI强调魔力OCR在现有OCR解决方案中的竞争优势，引用了基准测试结果，其中魔力OCR在数学识别、扫描文档和多语言文本处理方面优于主要替代方案，包括谷歌文档AI、微软OCR和OpenAI的GPT-4。该模型在数学识别、扫描文档和多语言文本处理方面达到了最高的准确率。魔力OCR的设计比竞争对手模型更快，单节点每分钟可处理多达2000页。这种速度优势使其适合应用于研究、客户服务和历史保护等行业的大量文档处理。杨博士，魔力AI开发者关系负责人，在她的X账号上积极展示了魔力OCR的功能。她强调了其卓越的性能指标、多语言支持以及从PDF中准确提取数学方程的能力。在最近的一篇帖子中，她分享了一个魔力OCR成功识别并格式化复杂数学表达式的示例，证明了其在科学研究和学术应用中的有效性。

魔力OCR引入了几项功能，使其成为处理大量文档库的企业和机构的理想选择：
– 多语言和多模态处理：该模型支持多种语言、文字和文档布局，非常适合全球性组织。
– 结构化输出和文档层次结构保留：与基础OCR模型不同，魔力OCR保留了标题、段落、列表和表格等格式元素，确保提取的文本对下游应用更有价值。
– 文档作为提示和结构化输出：用户可以提取特定内容并以结构化输出格式（如JSON或Markdown）进行格式化，从而与其他AI驱动的工作流整合。
– 自托管选项：对严格的数据安全和合规要求的组织可以选择在自己的基础设施内部署魔力OCR。

魔力AI的在线开发者文档还强调了OCR以外的文档理解能力。在提取文本和结构后，魔力OCR与大型语言模型（LLMs）集成，允许用户通过自然语言查询与文档内容互动。
– 针对特定文档内容的问题回答
– 自动信息抽取和摘要
– 跨多个文档的比较分析
– 考虑全文背景的响应

对于CEO、CIO、CTO、IT经理和团队领导而言，魔力OCR在文档驱动的工作流程中提供了显著的效率、安全性和可扩展性提升机会。
1. 提高效率和节省成本
通过自动化文档处理和减少手动数据录入，魔力OCR降低了行政开支并简化了操作流程。组织可以更快、更准确地处理大量文档，减少人工干预的需求。这对于金融、医疗、法律和合规等行业特别有价值，因为大量的文书工作是这些领域的瓶颈。
2. 借助AI驱动的文档分析支持更快、基于数据的决策制定
魔力OCR的文档理解能力使决策者可以从报告、合同、财务文件和研究论文中提取可操作的见解。IT领导者可以将API集成到商业智能平台中，实现AI辅助的文档分析，支持更快、基于数据的决策制定。
3. 满足处理敏感或机密数据的企业在安全性及合规性方面的需求
有了本地部署选项，魔力OCR满足了处理敏感或机密数据的企业在安全性及合规性方面的需求。CIO和合规官员可以确保专有信息保留在内部基础设施内，同时利用AI进行文档处理。
4. 简化文档驱动工作流的集成
CTO和IT经理可以将魔力OCR与现有的企业系统集成，包括内容管理系统、CRM软件、法律科技解决方案和AI驱动的助手。API支持结构化输出（JSON、Markdown），使自动化文档驱动的工作流变得简单，提高整体生产效率。
5. 通过AI驱动的解决方案保持竞争力
对于希望在数字转型中保持领先地位的组织，魔力OCR提供了一种可扩展的AI驱动解决方案，使海量文档库更容易被访问。通过利用AI进行信息提取，企业可以提升客户体验，优化内部知识库，并减少运营低效问题。

魔力OCR的价格为每1000页1美元，批量推理提供每2000页1美元。API现已在拉·平台上线，计划未来扩展至云和推理合作伙伴。该模型还可以在魔力AI的网站乐查特上免费试用，这是一个由其大型语言模型驱动的对话聊天机器人，类似于OpenAI的ChatGPT，允许用户在将其集成到工作流程前测试其功能。魔力AI预计将在未来几周根据用户反馈继续改进该模型。在我短暂测试一个简短且潦草的手写笔记时，它在一秒钟内提供了准确且结构化的文本行。借助魔力OCR，魔力AI继续扩展其AI驱动工具套件，目标是那些需要高性能文档处理解决方案的企业。通过结合OCR与AI驱动的文档理解，魔力AI使企业能够更智能地提取、分析和与其文档互动。

(以上内容均由Ai生成)