中国电视台使用 AI 将广播翻译成手语。进展并不顺利

快速阅读: 据《The Register》称，中国利用AI改善聋人媒体获取，但效果不佳。专家指出AI手语翻译存在信息丢失、动作不自然等问题，且开发者忽视手语与口语的差异。

中国利用人工智能改善聋人媒体获取的举措并不顺利，据北京师范大学教育学院的一位教授表示。在名为第六声（Sixth Tone）的媒体上撰文，郑璇教授指出，中国有2050万听力障碍者，国家鼓励使用虚拟形象和虚拟主持人对一些电视节目进行实时翻译。这些努力始于2022年北京冬奥会，郑璇教授研究了该赛事的手语翻译质量，结果并不令人满意。“我们转录并回译了虚拟形象生成的手语，然后与原始音频进行比较，发现AI生成版本中大量关键信息丢失或失真，”她写道。聋人很难理解AI生成的手语。“仔细观察后，我们发现虚拟形象的动作在手形、位置、方向和动作方面与日常手语存在很大差异，”她写道。“其他问题更加明显——虚拟形象的面部表情和身体语言不自然，嘴巴动作也扭曲。”在接受采访的观众表示，“他们通常无法理解虚拟形象的动作，并指出它们似乎词汇量有限，难以应对多义词。”郑璇认为AI表现不佳是因为“中文中找不到对应于中国手语中50%手势意义的词语。”开发者忽略了“手语和口语之间的差异。特别是，许多人将手语视为口语的辅助工具，或者认为在两者之间进行翻译类似于在两种口语之间进行翻译。”“但口语和手语的模式截然不同，”她写道。“前者是口头和听觉语言，而后者是视觉-手势或视觉-空间语言。‘手势’是一个相对广泛的概念，不仅包括手部动作，还包括面部表情和身体语言。充分利用身体在空间中的作用，使手语使用者能够仅用一个动作表达整个句子的意思，例如‘一个人走进房间’。”中国手语的多样性也是一个问题。郑璇写道，中国手语包括“自然手语”，它源于聋人的日常生活，以及“手语汉语”，即用手势表达汉字的方式。“大多数中国聋人使用的语言位于这两者之间的某个位置，”她写道，并补充说，手语方言也是开发人员面临的另一个复杂因素。构建一个能处理所有细微差别的翻译虚拟形象非常困难，而且由于可用于训练AI的有效数据很少，这使得问题更加复杂。顶级AI模型——甚至美国的模型——也会重复中国的宣传，研究报告指出。AI主持的信息广告在中国售出了价值750万美元的产品。加拿大命令中国CCTV企业海康威视立即退出该国。中国推出了一台x86超级计算机，与AMD有关联。郑璇还批评了中国科技公司，她说这些公司“并未深入参与手语语言学家或聋人。即使在某些情况下有手语教师或翻译员参与，开发者往往只是让他们担任辅助角色，而不是以聋人用户的意见作为产品效果的最终评判标准。”这不仅仅是批评：郑璇曾为一个开发翻译虚拟形象的团队担任顾问，发现他们并没有充分胜任这项任务。“他们似乎低估了其中的难度，高估了技术解决问题的能力，并缺乏必要的经验、资源和判断第三方公司工作质量的能力，”她写道。“在我加入项目时，这些缺点已经很明显。尽管开发团队欢迎我的参与，但我感觉这种尊重更多是出于我对大学教授的技术知识的认可，而不是我作为聋人的身份。”郑璇表示，当她指出产品无法满足用户需求时，“我的反馈没有被完全接受，因为开发者似乎无法完全共情我的困扰。”她现在觉得，技术在处理手语翻译问题上的方式存在“根本性的问题”，因为“科技公司习惯于先推出一个有很多缺陷的版本，然后通过大量用户反馈进行优化。”她看到的产品如此糟糕，她担心这会损害聋人群体对技术解决方案的信任。“更不用说有些公司通过使用真人而非虚拟形象来推广他们的产品，然后发布一个不成熟的生成式AI版本，误导了用户，”她写道。“技术乐观主义者可能认为这些问题都会随着时间得到解决，但我们不应忽视不可逆的伦理伤害：如果聋人用户的真实需求得不到回应，他们会觉得自己被当作实验品。”

(以上内容均由Ai生成)