AI 现在用于音频描述。但它应该是准确的,并且对视力低下的人真正有用
快速阅读: 据《对话 (澳大利亚)》称,AI正革新无障碍技术,如谷歌Pixel 8广告展示的盲人友好功能。尽管AI可生成音频描述,但其准确性与可靠性需被重视。盲人和低视力者依赖精确描述,因此他们应在AI无障碍技术发展中扮演关键角色。
随着近期广泛可用的生成式人工智能(AI)的迅速普及,现在似乎每周都会出现一款新的AI工具。AI在提升生产力、激发创造力、推动研究以及促进无障碍性方面提供了各种解决方案,让产品、服务以及其他内容对残疾人更加友好。
谷歌Pixel 8在2024年超级碗上的获奖广告就是一个生动的例子,展示了最新AI技术如何与无障碍功能结合。这部广告由盲人导演亚当·莫尔斯执导,画面中的哈维尔展示了Pixel 8手机的无障碍功能。该功能借助音频提示、触觉反馈(通过振动传递信息给用户)以及动画,协助盲人和低视力用户拍摄照片和视频。广告因其包容性和代表性广受好评,同时也展示了人们对AI生成更无障碍技术的兴趣和能力正在增长。
AI还可能挑战音频描述的创建方式及其听起来的效果。这是我们的研究团队的重点。音频描述是一种叙述轨道,用于描述视觉媒体(包括电视节目、电影和现场表演)的重要视觉元素。合成语音和快速自动化的视觉描述可能会让更多的音频描述出现在屏幕上。但用户是否会因此失去其他方面的利益?
AI作为人们的眼睛
AI驱动的无障碍工具正大量涌现。其中包括微软的Seeing AI应用,它通过读取文本和识别物体将智能手机变成一个会说话的相机。另一个名为Be My AI的应用程序使用虚拟助手来描述盲人用户拍摄的照片;它是原始应用程序Be My Eyes的AI版本,其中相同任务由人类志愿者完成。
越来越多的AI软件选项可用于文本转语音和文档阅读,以及生成音频描述。音频描述是使视觉媒体对盲人或视力受损观众可访问的一项重要功能。但其好处不仅限于此。
研究表明,音频描述对其他残疾群体和没有残疾的主流观众都有益处。音频描述还可以作为一种创造性的方式进一步开发或增强视觉文本。
传统上,音频描述是由人类声音、编剧和制作团队创建的。然而,在过去的一年里,包括Netflix和亚马逊Prime在内的多个国际流媒体服务开始提供至少部分由AI生成的音频描述。
然而,当前的AI技术存在一些问题,包括它们生成虚假信息的能力。这些工具需要被批判性地评估和改进。
AI会取代音频描述工作吗?
AI可能以多种方式影响音频描述的创作和最终结果。通过AI工具,流媒体服务可以使用合成语音“朗读”音频描述脚本。有潜力实现不同程度的自动化,同时让用户有机会根据自己的具体需求和偏好定制音频描述。想让你的烹饪节目用英国口音叙述吗?通过AI,你只需按一下按钮就可以更改。
然而,在音频描述行业中,许多人担心AI可能会削弱人类在这一过程中带来的质量、创造力和专业性。
例如,语言学习应用Duolingo最近宣布将转向“AI优先”开发。因此,许多承包商失去了工作,这些工作现在据说可以由算法完成。
一方面,AI可以帮助扩大各种媒体和现场体验的音频描述范围。
但AI音频描述也可能导致失业而不是创造就业机会。最糟糕的结果将是大量低质量的音频描述,这将完全削弱其价值。
AI不应降低辅助技术(包括音频描述)的质量。
Ground Picture/Shutterstock
我们能信任AI能很好地描述事物吗?
行业影响以及AI在音频描述中的具体应用细节是一回事。
目前缺乏的是以用户视角为核心的研究,并考虑他们对未来音频描述的经验和需求。
对于盲人和低视力观众来说,准确性——以及对这种准确性的信任——极为关键。
廉价且经常免费的AI工具现在广泛用于总结、转录和翻译。但众所周知的问题是,生成式AI难以保持事实准确性。这些看似合理的虚构内容即使在AI工具未被要求创造新内容时也会大量出现——比如进行简单的音频转录。
如果AI工具只是凭空制造内容而非让现有内容变得可访问,它将进一步疏远并使盲人和低视力消费者处于不利地位。
但我们必须谨慎地使用AI来实现无障碍性。
AI是一项相对较新的技术,为了使其在无障碍性方面真正受益,其准确性和可靠性需要达到绝对标准。盲人和低视力用户需要能够自信地打开AI工具。
但我们必须谨慎地使用AI来实现无障碍性。
在当前“AI热潮”中,为了使音频描述更便宜、更快捷且更容易获得,至关重要的是那些最需要的人群应密切参与技术的部署过程。
(以上内容均由Ai生成)