AI 系统仅使用网络摄像头实时翻译美国手语
快速阅读: 据《AZoAI》最新报道,佛罗里达大西洋大学研发实时美国手语翻译系统,结合深度学习与手部追踪技术,准确率达98.2%,助力聋人社区沟通无障碍。未来将扩展至完整句子翻译,推动包容性社会建设。
佛罗里达大西洋大学
2025年4月10日
佛罗里达大西洋大学推出了一种基于人工智能的新系统,该系统结合了深度学习与精准的手部追踪技术,能够基于深度学习和关键点跟踪的实时美国手语(ASL)解释——为聋人和听力受损人群带来了可扩展且低成本的交流工具。
研究:基于深度学习和关键点跟踪的实时美国手语解释
在全球范围内,数百万的聋人和听力受损者面临着沟通障碍,这使得日常互动变得困难。传统的解决方案如手语翻译员往往稀缺、昂贵且依赖于人力可用性。在日益数字化的世界中,对智能辅助技术的需求不断增长,这些技术可以提供实时、准确且易于访问的通信解决方案,以弥合这一关键差距。
美国手语是使用最广泛的几种手语之一。它由独特的手势组成,代表字母、单词和短语。现有的ASL识别系统通常在实时性能、准确性和环境适应性方面存在挑战。ASL系统的主要挑战在于区分视觉上相似的手势,例如“A”和“T”或“M”和“N”,这常常导致分类错误。此外,数据集的质量也带来了重大障碍,包括图像分辨率低、运动模糊、光线不一致以及手的大小、肤色和背景的变化等因素。这些因素引入了偏差,并降低了模型在不同用户和环境中泛化的能力。
为了解决这些挑战,佛罗里达大西洋大学工程与计算机科学学院的研究人员开发了一种创新的实时ASL解释系统。结合YOLOv11的目标检测能力和MediaPipe的精确手部追踪技术,该系统能够在实时情况下准确识别ASL字母表中的字母。通过先进的深度学习和关键手部点追踪技术,它将ASL手势转化为文本,使用户能够以惊人的准确性交互式地拼写名字、地点等内容。
在其核心部分,内置的网络摄像头作为无接触传感器,捕捉实时视觉数据并将其转换为数字帧进行手势分析。MediaPipe在每只手上识别21个关键点以创建骨骼图,而YOLOv11则利用这些点高精度地检测和分类ASL字母。“这个系统的特别之处在于,从捕捉手势到分类的整个识别流程都能在各种光照条件或背景下无缝实时运行,”该论文的第一作者、FAU电气工程与计算机科学系博士候选人巴德尔·阿尔沙里夫说。“而且这一切都是使用标准现成硬件实现的。这凸显了该系统作为一种高度可访问且可扩展的辅助技术的实际潜力,使其成为现实世界应用中的可行解决方案。”
该研究的结果发表在《传感器》期刊上,证实了该系统的有效性。它达到了98.2%的平均精度均值,且延迟极小。这一发现突显了该系统在实时提供高精度的能力,使其成为需要快速可靠性能的应用的理想选择,如实时视频处理和交互技术。
ASL字母手势数据集包含13万张图片,涵盖了在不同条件下捕捉的各种手部手势,以帮助模型更好地泛化。这些条件涵盖了不同的光照环境(明亮、昏暗和阴影)、多种背景(室内外场景)以及各种手部角度和方向,以确保系统的鲁棒性。每张图片都精心标注了21个关键点,突出显示指尖、指关节和手腕等重要手部结构。这些注释提供了手部的骨骼图,使模型能够以极高的准确性区分相似的手势。
“这个项目很好地展示了尖端人工智能如何应用于服务人类,”共同作者、FAU电气工程与计算机科学系的特科教授伊马德·马赫古卜博士说。“通过融合深度学习与手部地标检测,我们的团队创造了一个不仅具有高准确度,而且对日常使用易用且实用的系统。这是迈向包容性通信技术的重要一步。”
美国的聋人人口约为1100万,占总人口的3.6%,约15%的美国成年人(3750万)有听力困难。“这项研究的意义在于,它通过提供一种基于人工智能的工具来翻译美国手语手势为文字,从而有可能改变聋人社区的沟通方式,使他们在教育、工作场所、医疗保健和社会环境中进行更顺畅的互动,”共同作者、FAU电气工程与计算机科学系教授穆罕默德·伊利亚斯博士说。“通过开发一个强大且可访问的ASL解释系统,我们的研究有助于推进辅助技术的发展,以消除聋人和听力受损人群面临的障碍。”
未来的工作将集中在扩展系统的功能,从识别单个ASL字母扩展到解释完整的ASL句子。这将使沟通更加自然流畅,让用户能够无缝表达思想和短语。
“这项研究强调了AI驱动的辅助技术在赋能聋人社区方面的变革力量,”工程与计算机科学学院院长斯特拉·巴塔拉玛博士说。“通过通过实时ASL识别弥合沟通差距,该系统在促进更具包容性的社会方面发挥了关键作用。它让有听力障碍的人能够更无缝地与周围的世界互动,无论是介绍自己、导航环境还是简单地参与日常对话。这项技术不仅增强了无障碍性,还促进了更大的社会融合,帮助为所有人创造一个更加互联和富有同情心的社区。”
该研究的共同作者包括Easa Alalwany博士,他是FAU工程与计算机科学学院的近期博士毕业生,也是沙特阿拉伯塔伊巴大学的助理教授,以及Ali Ibrahim博士,同样是FAU工程与计算机科学学院的博士毕业生。
来源:佛罗里达大西洋大学
期刊参考:Alsharif, B., Alalwany, E., Ibrahim, A., Mahgoub, I., & Ilyas, M. (2024). 基于深度学习和关键点跟踪的实时美国手语解释。《传感器》,25(7),2138。DOI:10.3390/s25072138
https://www.mdpi.com/1424-8220/25/7/2138
(以上内容均由Ai生成)