AI 系统仅使用网络摄像头实时翻译美国手语

发布时间:2025年4月10日    来源:szf
AI 系统仅使用网络摄像头实时翻译美国手语

快速阅读: 据《AZoAI》最新报道,佛罗里达大西洋大学研发实时美国手语翻译系统,结合深度学习与手部追踪技术,准确率达98.2%,助力聋人社区沟通无障碍。未来将扩展至完整句子翻译,推动包容性社会建设。

佛罗里达大西洋大学
2025年4月10日

佛罗里达大西洋大学推出了一种基于人工智能的新系统,该系统结合了深度学习与精准的手部追踪技术,能够基于深度学习和关键点跟踪的实时美国手语(ASL)解释——为聋人和听力受损人群带来了可扩展且低成本的交流工具。

研究:基于深度学习和关键点跟踪的实时美国手语解释

在全球范围内,数百万的聋人和听力受损者面临着沟通障碍,这使得日常互动变得困难。传统的解决方案如手语翻译员往往稀缺、昂贵且依赖于人力可用性。在日益数字化的世界中,对智能辅助技术的需求不断增长,这些技术可以提供实时、准确且易于访问的通信解决方案,以弥合这一关键差距。

美国手语是使用最广泛的几种手语之一。它由独特的手势组成,代表字母、单词和短语。现有的ASL识别系统通常在实时性能、准确性和环境适应性方面存在挑战。ASL系统的主要挑战在于区分视觉上相似的手势,例如“A”和“T”或“M”和“N”,这常常导致分类错误。此外,数据集的质量也带来了重大障碍,包括图像分辨率低、运动模糊、光线不一致以及手的大小、肤色和背景的变化等因素。这些因素引入了偏差,并降低了模型在不同用户和环境中泛化的能力。

为了解决这些挑战,佛罗里达大西洋大学工程与计算机科学学院的研究人员开发了一种创新的实时ASL解释系统。结合YOLOv11的目标检测能力和MediaPipe的精确手部追踪技术,该系统能够在实时情况下准确识别ASL字母表中的字母。通过先进的深度学习和关键手部点追踪技术,它将ASL手势转化为文本,使用户能够以惊人的准确性交互式地拼写名字、地点等内容。

在其核心部分,内置的网络摄像头作为无接触传感器,捕捉实时视觉数据并将其转换为数字帧进行手势分析。MediaPipe在每只手上识别21个关键点以创建骨骼图,而YOLOv11则利用这些点高精度地检测和分类ASL字母。“这个系统的特别之处在于,从捕捉手势到分类的整个识别流程都能在各种光照条件或背景下无缝实时运行,”该论文的第一作者、FAU电气工程与计算机科学系博士候选人巴德尔·阿尔沙里夫说。“而且这一切都是使用标准现成硬件实现的。这凸显了该系统作为一种高度可访问且可扩展的辅助技术的实际潜力,使其成为现实世界应用中的可行解决方案。”

该研究的结果发表在《传感器》期刊上,证实了该系统的有效性。它达到了98.2%的平均精度均值,且延迟极小。这一发现突显了该系统在实时提供高精度的能力,使其成为需要快速可靠性能的应用的理想选择,如实时视频处理和交互技术。

ASL字母手势数据集包含13万张图片,涵盖了在不同条件下捕捉的各种手部手势,以帮助模型更好地泛化。这些条件涵盖了不同的光照环境(明亮、昏暗和阴影)、多种背景(室内外场景)以及各种手部角度和方向,以确保系统的鲁棒性。每张图片都精心标注了21个关键点,突出显示指尖、指关节和手腕等重要手部结构。这些注释提供了手部的骨骼图,使模型能够以极高的准确性区分相似的手势。

“这个项目很好地展示了尖端人工智能如何应用于服务人类,”共同作者、FAU电气工程与计算机科学系的特科教授伊马德·马赫古卜博士说。“通过融合深度学习与手部地标检测,我们的团队创造了一个不仅具有高准确度,而且对日常使用易用且实用的系统。这是迈向包容性通信技术的重要一步。”

美国的聋人人口约为1100万,占总人口的3.6%,约15%的美国成年人(3750万)有听力困难。“这项研究的意义在于,它通过提供一种基于人工智能的工具来翻译美国手语手势为文字,从而有可能改变聋人社区的沟通方式,使他们在教育、工作场所、医疗保健和社会环境中进行更顺畅的互动,”共同作者、FAU电气工程与计算机科学系教授穆罕默德·伊利亚斯博士说。“通过开发一个强大且可访问的ASL解释系统,我们的研究有助于推进辅助技术的发展,以消除聋人和听力受损人群面临的障碍。”

未来的工作将集中在扩展系统的功能,从识别单个ASL字母扩展到解释完整的ASL句子。这将使沟通更加自然流畅,让用户能够无缝表达思想和短语。

“这项研究强调了AI驱动的辅助技术在赋能聋人社区方面的变革力量,”工程与计算机科学学院院长斯特拉·巴塔拉玛博士说。“通过通过实时ASL识别弥合沟通差距,该系统在促进更具包容性的社会方面发挥了关键作用。它让有听力障碍的人能够更无缝地与周围的世界互动,无论是介绍自己、导航环境还是简单地参与日常对话。这项技术不仅增强了无障碍性,还促进了更大的社会融合,帮助为所有人创造一个更加互联和富有同情心的社区。”

该研究的共同作者包括Easa Alalwany博士,他是FAU工程与计算机科学学院的近期博士毕业生,也是沙特阿拉伯塔伊巴大学的助理教授,以及Ali Ibrahim博士,同样是FAU工程与计算机科学学院的博士毕业生。

来源:佛罗里达大西洋大学
期刊参考:Alsharif, B., Alalwany, E., Ibrahim, A., Mahgoub, I., & Ilyas, M. (2024). 基于深度学习和关键点跟踪的实时美国手语解释。《传感器》,25(7),2138。DOI:10.3390/s25072138
https://www.mdpi.com/1424-8220/25/7/2138

(以上内容均由Ai生成)

你可能还想读

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日
Palantir与Snowflakes深化AI合作

Palantir与Snowflakes深化AI合作

快速阅读: Snowflake 与 Palantir 宣布建立战略合作,整合双方的数据与AI能力,使企业能够在统一的数据基础上直接调用 Palantir 的AI分析与智能应用工具,加速企业级AI落地。 2025年10月,Snowflake […]

发布时间:2025年11月10日
Palantir与迪拜控股共建AI公司

Palantir与迪拜控股共建AI公司

快速阅读: Dubai Holding 与 Palantir 宣布成立合资公司 Aither,致力于为中东地区政府与企业提供人工智能转型解决方案。该合作标志着 Palantir 在中东技术布局的进一步深化,也为当地公共服务与产业数字化提供新 […]

发布时间:2025年11月10日
Palantir携手Lumen共建企业AI平台

Palantir携手Lumen共建企业AI平台

快速阅读: 2025年10月,Palantir Technologies与Lumen Technologies宣布达成战略合作,联合打造面向企业级应用的人工智能服务平台。双方将以Palantir的Foundry与AIP平台为核心,推动通信与 […]

发布时间:2025年11月7日
Palantir携手Hadean拓展英国国防部AI战场模拟平台

Palantir携手Hadean拓展英国国防部AI战场模拟平台

快速阅读: 2025年10月,数据智能公司 Palantir Technologies 宣布与英国分布式计算企业 Hadean 达成战略合作,双方将共同为英国国防部(UK Ministry of Defence, UK MoD)扩展基于人工 […]

发布时间:2025年11月7日