中国电视台使用 AI 将广播翻译成手语。进展并不顺利
快速阅读: 据《The Register》称,中国利用AI改善聋人媒体获取,但效果不佳。专家指出AI手语翻译存在信息丢失、动作不自然等问题,且开发者忽视手语与口语的差异。
中国利用人工智能改善聋人媒体获取的举措并不顺利,据北京师范大学教育学院的一位教授表示。在名为第六声(Sixth Tone)的媒体上撰文,郑璇教授指出,中国有2050万听力障碍者,国家鼓励使用虚拟形象和虚拟主持人对一些电视节目进行实时翻译。这些努力始于2022年北京冬奥会,郑璇教授研究了该赛事的手语翻译质量,结果并不令人满意。“我们转录并回译了虚拟形象生成的手语,然后与原始音频进行比较,发现AI生成版本中大量关键信息丢失或失真,”她写道。聋人很难理解AI生成的手语。“仔细观察后,我们发现虚拟形象的动作在手形、位置、方向和动作方面与日常手语存在很大差异,”她写道。“其他问题更加明显——虚拟形象的面部表情和身体语言不自然,嘴巴动作也扭曲。”在接受采访的观众表示,“他们通常无法理解虚拟形象的动作,并指出它们似乎词汇量有限,难以应对多义词。”郑璇认为AI表现不佳是因为“中文中找不到对应于中国手语中50%手势意义的词语。”开发者忽略了“手语和口语之间的差异。特别是,许多人将手语视为口语的辅助工具,或者认为在两者之间进行翻译类似于在两种口语之间进行翻译。”“但口语和手语的模式截然不同,”她写道。“前者是口头和听觉语言,而后者是视觉-手势或视觉-空间语言。‘手势’是一个相对广泛的概念,不仅包括手部动作,还包括面部表情和身体语言。充分利用身体在空间中的作用,使手语使用者能够仅用一个动作表达整个句子的意思,例如‘一个人走进房间’。”中国手语的多样性也是一个问题。郑璇写道,中国手语包括“自然手语”,它源于聋人的日常生活,以及“手语汉语”,即用手势表达汉字的方式。“大多数中国聋人使用的语言位于这两者之间的某个位置,”她写道,并补充说,手语方言也是开发人员面临的另一个复杂因素。构建一个能处理所有细微差别的翻译虚拟形象非常困难,而且由于可用于训练AI的有效数据很少,这使得问题更加复杂。顶级AI模型——甚至美国的模型——也会重复中国的宣传,研究报告指出。AI主持的信息广告在中国售出了价值750万美元的产品。加拿大命令中国CCTV企业海康威视立即退出该国。中国推出了一台x86超级计算机,与AMD有关联。郑璇还批评了中国科技公司,她说这些公司“并未深入参与手语语言学家或聋人。即使在某些情况下有手语教师或翻译员参与,开发者往往只是让他们担任辅助角色,而不是以聋人用户的意见作为产品效果的最终评判标准。”这不仅仅是批评:郑璇曾为一个开发翻译虚拟形象的团队担任顾问,发现他们并没有充分胜任这项任务。“他们似乎低估了其中的难度,高估了技术解决问题的能力,并缺乏必要的经验、资源和判断第三方公司工作质量的能力,”她写道。“在我加入项目时,这些缺点已经很明显。尽管开发团队欢迎我的参与,但我感觉这种尊重更多是出于我对大学教授的技术知识的认可,而不是我作为聋人的身份。”郑璇表示,当她指出产品无法满足用户需求时,“我的反馈没有被完全接受,因为开发者似乎无法完全共情我的困扰。”她现在觉得,技术在处理手语翻译问题上的方式存在“根本性的问题”,因为“科技公司习惯于先推出一个有很多缺陷的版本,然后通过大量用户反馈进行优化。”她看到的产品如此糟糕,她担心这会损害聋人群体对技术解决方案的信任。“更不用说有些公司通过使用真人而非虚拟形象来推广他们的产品,然后发布一个不成熟的生成式AI版本,误导了用户,”她写道。“技术乐观主义者可能认为这些问题都会随着时间得到解决,但我们不应忽视不可逆的伦理伤害:如果聋人用户的真实需求得不到回应,他们会觉得自己被当作实验品。”
(以上内容均由Ai生成)