为什么从 PDF 中提取数据仍然是数据专家的噩梦

发布时间：2025年3月11日来源：szf

快速阅读: 据《Ars Technica》称，企业和政府长期面临从PDF文件中提取数据的难题，因PDF格式固定且常包含图片而非可编辑文本，导致数据难以被机器读取和分析。此问题在科研、历史文件保存、客户服务等领域尤为突出，影响数据分析和机器学习的应用。全球约80%-90%的组织数据以非结构化形式存储在难以提取的文档中，增加了处理难度。

多年来，企业和政府以及研究人员一直在努力解决一个持续存在的问题：如何从PDF文件中提取可用数据。这些数字文档包含了从科学研究到政府记录的各种内容，但其固定的格式常常使数据难以被提取出来，使机器难以读取和分析。“部分问题在于PDF是印刷布局对出版软件影响较大的时代产物，而PDF更像是用于打印的产品而不是数字产品，”马里兰大学数据与计算新闻学讲师德里克·威利斯在给Ars Technica的电子邮件中写道。“主要问题是许多PDF实际上只是信息的图片，这意味着你需要光学字符识别软件将这些图片转换为数据，特别是当原始文件较旧或包含手写字迹时。”计算新闻学是将传统报道技术与数据分析、编程及算法思维结合的领域，旨在揭示可能隐藏在大型数据集中隐藏的故事，这让威利斯对解析这些数据特别感兴趣。PDF难题也是数据分析和机器学习领域的一个重要障碍。根据多项研究，全球约80%-90%的组织数据以非结构化形式存储在文档中，其中许多数据被锁定在难以提取的格式中。两栏布局、表格、图表以及图像质量差的扫描文件使问题变得更加复杂。无法可靠地从PDF中提取数据影响了许多行业，但在依赖文档和遗留记录的领域影响尤为严重，包括数字化科学研究、保存历史文件、简化客户服务以及使技术文献更容易被人工智能系统访问。PDF难题也是数据分析和机器学习领域的一个重要障碍。根据多项研究，全球约80%-90%的组织数据以非结构化形式存储在文档中，其中许多数据被锁定在难以提取的格式中。两栏布局、表格、图表以及图像质量差的扫描文件使问题变得更加复杂。

(以上内容均由Ai生成)