AI 系统仅使用网络摄像头实时翻译美国手语

发布时间:2025年4月10日    来源:szf
AI 系统仅使用网络摄像头实时翻译美国手语

快速阅读: 据《AZoAI》最新报道,佛罗里达大西洋大学研发实时美国手语翻译系统,结合深度学习与手部追踪技术,准确率达98.2%,助力聋人社区沟通无障碍。未来将扩展至完整句子翻译,推动包容性社会建设。

佛罗里达大西洋大学
2025年4月10日

佛罗里达大西洋大学推出了一种基于人工智能的新系统,该系统结合了深度学习与精准的手部追踪技术,能够基于深度学习和关键点跟踪的实时美国手语(ASL)解释——为聋人和听力受损人群带来了可扩展且低成本的交流工具。

研究:基于深度学习和关键点跟踪的实时美国手语解释

在全球范围内,数百万的聋人和听力受损者面临着沟通障碍,这使得日常互动变得困难。传统的解决方案如手语翻译员往往稀缺、昂贵且依赖于人力可用性。在日益数字化的世界中,对智能辅助技术的需求不断增长,这些技术可以提供实时、准确且易于访问的通信解决方案,以弥合这一关键差距。

美国手语是使用最广泛的几种手语之一。它由独特的手势组成,代表字母、单词和短语。现有的ASL识别系统通常在实时性能、准确性和环境适应性方面存在挑战。ASL系统的主要挑战在于区分视觉上相似的手势,例如“A”和“T”或“M”和“N”,这常常导致分类错误。此外,数据集的质量也带来了重大障碍,包括图像分辨率低、运动模糊、光线不一致以及手的大小、肤色和背景的变化等因素。这些因素引入了偏差,并降低了模型在不同用户和环境中泛化的能力。

为了解决这些挑战,佛罗里达大西洋大学工程与计算机科学学院的研究人员开发了一种创新的实时ASL解释系统。结合YOLOv11的目标检测能力和MediaPipe的精确手部追踪技术,该系统能够在实时情况下准确识别ASL字母表中的字母。通过先进的深度学习和关键手部点追踪技术,它将ASL手势转化为文本,使用户能够以惊人的准确性交互式地拼写名字、地点等内容。

在其核心部分,内置的网络摄像头作为无接触传感器,捕捉实时视觉数据并将其转换为数字帧进行手势分析。MediaPipe在每只手上识别21个关键点以创建骨骼图,而YOLOv11则利用这些点高精度地检测和分类ASL字母。“这个系统的特别之处在于,从捕捉手势到分类的整个识别流程都能在各种光照条件或背景下无缝实时运行,”该论文的第一作者、FAU电气工程与计算机科学系博士候选人巴德尔·阿尔沙里夫说。“而且这一切都是使用标准现成硬件实现的。这凸显了该系统作为一种高度可访问且可扩展的辅助技术的实际潜力,使其成为现实世界应用中的可行解决方案。”

该研究的结果发表在《传感器》期刊上,证实了该系统的有效性。它达到了98.2%的平均精度均值,且延迟极小。这一发现突显了该系统在实时提供高精度的能力,使其成为需要快速可靠性能的应用的理想选择,如实时视频处理和交互技术。

ASL字母手势数据集包含13万张图片,涵盖了在不同条件下捕捉的各种手部手势,以帮助模型更好地泛化。这些条件涵盖了不同的光照环境(明亮、昏暗和阴影)、多种背景(室内外场景)以及各种手部角度和方向,以确保系统的鲁棒性。每张图片都精心标注了21个关键点,突出显示指尖、指关节和手腕等重要手部结构。这些注释提供了手部的骨骼图,使模型能够以极高的准确性区分相似的手势。

“这个项目很好地展示了尖端人工智能如何应用于服务人类,”共同作者、FAU电气工程与计算机科学系的特科教授伊马德·马赫古卜博士说。“通过融合深度学习与手部地标检测,我们的团队创造了一个不仅具有高准确度,而且对日常使用易用且实用的系统。这是迈向包容性通信技术的重要一步。”

美国的聋人人口约为1100万,占总人口的3.6%,约15%的美国成年人(3750万)有听力困难。“这项研究的意义在于,它通过提供一种基于人工智能的工具来翻译美国手语手势为文字,从而有可能改变聋人社区的沟通方式,使他们在教育、工作场所、医疗保健和社会环境中进行更顺畅的互动,”共同作者、FAU电气工程与计算机科学系教授穆罕默德·伊利亚斯博士说。“通过开发一个强大且可访问的ASL解释系统,我们的研究有助于推进辅助技术的发展,以消除聋人和听力受损人群面临的障碍。”

未来的工作将集中在扩展系统的功能,从识别单个ASL字母扩展到解释完整的ASL句子。这将使沟通更加自然流畅,让用户能够无缝表达思想和短语。

“这项研究强调了AI驱动的辅助技术在赋能聋人社区方面的变革力量,”工程与计算机科学学院院长斯特拉·巴塔拉玛博士说。“通过通过实时ASL识别弥合沟通差距,该系统在促进更具包容性的社会方面发挥了关键作用。它让有听力障碍的人能够更无缝地与周围的世界互动,无论是介绍自己、导航环境还是简单地参与日常对话。这项技术不仅增强了无障碍性,还促进了更大的社会融合,帮助为所有人创造一个更加互联和富有同情心的社区。”

该研究的共同作者包括Easa Alalwany博士,他是FAU工程与计算机科学学院的近期博士毕业生,也是沙特阿拉伯塔伊巴大学的助理教授,以及Ali Ibrahim博士,同样是FAU工程与计算机科学学院的博士毕业生。

来源:佛罗里达大西洋大学
期刊参考:Alsharif, B., Alalwany, E., Ibrahim, A., Mahgoub, I., & Ilyas, M. (2024). 基于深度学习和关键点跟踪的实时美国手语解释。《传感器》,25(7),2138。DOI:10.3390/s25072138
https://www.mdpi.com/1424-8220/25/7/2138

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日