Meta推出新AI工具,首次实现500种小众语言转录
快速阅读: Meta推出Omnilingual ASR工具,支持转录音频资料的500种“资源匮乏”语言,旨在缩小数字鸿沟,工具已在Hugging Face发布,涵盖1600多种语言。
不要错过我们的最新报道。将《PCMag》设为谷歌上的首选来源。
Meta最近成立的超级智能实验室推出了一系列由人工智能驱动的转录模型,据称这是首次能够转录音频资料的500种“资源匮乏”语言。开源转录工具“Omnilingual自动语音识别(ASR)”现已在Hugging Face上发布。根据Meta的研究论文,该工具能识别超过1600种语言,包括尼日利亚的Hwana、巴布亚新几内亚的Rotokas以及墨西哥的Güilá Zapotec。
Meta表示,这些“资源匮乏”语言在互联网上没有得到充分代表,“这意味着对于那些较少见或资源匮乏的语言使用者来说,高质量的转录服务往往不可得,加剧了数字鸿沟。”Meta希望,人工智能技术的进步能使建立通用转录服务成为可能。然而,这些语言的母语者将是检验技术有效性的关键。目前尚不清楚Meta能否说服巴布亚新几内亚的人们或墨西哥讲扎波特克土著语言的人使用其人工智能产品。
基础模型Omnilingual wav2vec 2.0现已可用。Meta训练该模型理解多种语言和语音模式,无需为每种语言提供大量特定样本。Meta还发布了涵盖350种未充分服务语言的转录音频集合,称为Omnilingual ASR语料库。
如果用户发现他们选择的语言未被涵盖,只需上传少量音频片段及相应文本,即可获得可用的转录质量。Meta承认,性能可能不如完全训练过的系统好,但这或许能帮助用户达到预期效果的大半。Meta认为,这是一种更具扩展性的方式,可将新的语言引入数字世界。
“这是实验性软件,”Meta表示。“尽管我们力求准确,但转录并非完美。您应始终检查输出并根据具体用途进行适当编辑以确保准确性。”
2022年,谷歌翻译增加了零样本机器翻译功能,可以在不查看任何示例的情况下翻译文本。谷歌翻译团队的软件工程师Isaac Caswell去年告诉我们,公司在向网站添加新语言之前,会通过与母语者和翻译人员直接合作,进行更为深入的过程。Meta表示,他们也与“招募并支付报酬给母语者的当地组织合作,这些母语者通常来自偏远或未记录地区”,针对几乎没有数字存在的语言进行工作。
许多科技公司利用大型语言模型的近期激增来推动语言翻译。自发布以来,ChatGPT已经能够产生高质量的翻译,而苹果的AirPods软件现在也可以在较新型号上实现实时语音翻译。
Meta还在全球范围内通过基础设施扩展其人工智能技术。今年2月,公司宣布了世界上最长的海底电缆项目Waterworth,旨在“促进数字包容性”并将人工智能带到世界各地更多地区。
(以上内容均由Ai生成)