PDF 是 Code for America 新 AI 工作室的矛尖
快速阅读: 据《StateScoop 公司》称,佐治亚州和盐湖城正利用AI工具处理大量PDF文件,以满足无障碍法规要求。该工具帮助分类、审查并提升文件可访问性,确保残疾人能平等获取服务。(98字)
目前,管理至少5万人人口的州和地方政府还有10个月的时间来遵守新的无障碍规则,以确保各类残疾人士能够获取信息并使用服务。因此,政府正在逐步优化其庞大的在线平台:在图片中添加替代文本,更换低对比度或难以浏览的设计,并且或许最令人头疼的是,确保成千上万的PDF文件格式正确,以便可以被屏幕阅读器等辅助设备解析。
Georgia.gov是佐治亚州政府的一个主要网站,上面大约有5万个PDF和其他静态文件,如PowerPoint幻灯片(如PDF、PPT等)。这个数字尚未涵盖其他佐治亚州网站上的所有文件。据非营利组织Code for America的数据科学高级主管詹妮弗·汤姆(Jennifer Thom)表示,佐治亚州约三分之一的静态文件需要某种形式的整改。
近年来,州和地方政府在网页无障碍方面变得更加熟练。曾经只有一小部分人认真对待的晦涩难懂的科学,如今已成为网络上做事的常规部分。由于以人为本的设计流行以及数字技术的文化重要性日益增加,政府网页设计师们基本上摆脱了之前使他们的数字作品成为嘲笑和轻视对象的制度惯性。那些主要源自Geocities的网站已经被清晰的排版、功能性的设计和带有俏皮警告信息的404页面所取代,比如德克萨斯州官网上的“请稍等一下,搭档。”
在佐治亚州,官员们已经遵循现代网页标准十年了。它位列全国前五,其他许多州也在迎头赶上。目前政府无障碍问题的剩余部分,大部分已不再是文化层面的问题,而是技术和具体的问题。
“人们遇到的最后一公里问题是处理PDF文件,”汤姆说,“PDF仍然是政府中的一个大问题,这也是我们认为人工智能可以帮助城市和州审查他们必须通过的数千份PDF文件,以满足无障碍截止日期的原因。”
汤姆提到的人工智能是一种由Code for America开发的数月旧工具,佐治亚州和犹他州盐湖城正在使用它来在明年4月截止日期前整理其静态文件。(管理人口少于5万人的政府还可以多一年的时间。)
它的界面看起来像一个文件管理器,显示可按类型或日期进行筛选和排序的数据条目。一种机器学习算法将文件分类为合同、议程、宣传册等类型,而用户选择的生成式AI模型则会总结每份文件的内容,并确定是否符合新标准的豁免条件。(符合豁免条件的文件是那些仅用于档案保存且与访问服务无关的文件。)
该工具并没有自动完成各州在使静态文件可访问方面需要做的大部分工作,除非他们想使用工具生成的描述作为替代文本(alt text),但它确实帮助他们评估项目规模。
佐治亚州技术管理局(州信息技术局)内容主管威尔·阿尔福德(Will Alford)称,他认为这是一款项目管理工具。“我们想到的一个想法是,你可以用这个工具识别可填写的表单,”阿尔福德说,“考虑到这些表单可能是最耗时的,因为它们需要从零开始重新制作,而我们看到的许多PDF文件只需在文档中加上标题、副标题和正文文本即可进行修复,这样屏幕阅读器就能知道它们在看什么。”
虽然佐治亚州希望改进其表单,但据Code for America的汤姆说,盐湖城还担心避免诉讼并减少法律风险。
政府应遵循的网络标准是由万维网联盟(W3C)制定的,这是20世纪90年代由网络创始人蒂姆·伯纳斯-李(Tim Berners-Lee)创立的有影响力的组织。但这一要求是由《美国残疾人法案》(ADA)驱动的,不合规可能会被依法解释为歧视。
ADA的网站欢快地指出,新规定旨在“更好地为您的社区成员服务,包括视力、听力、身体、言语、认知和神经障碍者。”它还指出,遵守这些规定有激励措施:“例如,如果州政府的在线税表对残疾人不可用,那么政府可能很难高效地征税。”
盐湖城需要修复的一份文件可以追溯到1998年——“这是一个千禧年PDF文件,”汤姆开玩笑说(实际上它错过了截止日期,变成了Z世代), “所以创建这个PDF的人可能不是审核它的人。因此,工具生成的摘要有助于审核它的人获得一些上下文。”
该工具使用Ruby on Rails开发,是开源的,可在GitHub上免费下载,同时还有许多其他Code for America项目。佐治亚州和盐湖城将在明年截止日期前继续得到汤姆及其“敏捷、专注于技术”的三至五人AI小组的定制支持,但她表示,其他政府也可能发现单独使用它很有用。
该工具设计得让机构可以随意替换不同的AI模型。她的团队还在考虑新增功能,允许用户直接从界面上修复文件,而不仅仅是对文件进行分类处理——“从网站上删除PDF”,“转换为HTML”和“PDF正在审查”是当前的三个例子。
PDF工具是Code for America的人工智能实验室开发的第一个项目,该实验室今年初启动,是一个新的团队,旨在保持敏捷,跟上人工智能领域快速发展的步伐,全球激烈的竞争推动每周发布更聪明、更便宜的模型。
她说,一旦她的团队开始寻找问题,PDF问题就迅速脱颖而出,因为它在政府中非常普遍,而且对于关心公共服务的人来说,它提出了一个显著的挑战。
“网站是政府服务的门户,这些网站通常有很多PDF文件,”汤姆说,“2023年联邦政府在各部门之间的PDF下载量达到40亿次,其中一些下载量最高的表格是税务表格。这些都是直接向人们提供政府服务的东西,如果PDF无法访问,那么穿过这扇门就会变得困难得多。”
在第二任唐纳德·特朗普政府正在削减项目,特别是多元化和无障碍倡议,取消提供服务的联邦员工,并让可能已经对权威持怀疑态度的人流失的时期,政府的门户对许多人来说不仅难以进入,而且似乎彻底封闭。
联邦削减的影响已经在州和地方政府中显现出来,尽管这些地方的服务仍在运作。
修复PDF是一项相对微不足道但繁重的项目,但对汤姆而言,这无疑是一个建设性的项目。
(以上内容均由Ai生成)