ElevenLabs 将莫迪总理的声音推向世界
快速阅读: 《印度分析杂志》消息,近期,计算机科学家莱克斯·弗里德曼与印度总理莫迪的三小时播客因高质量AI翻译获关注。ElevenLabs,一家成立仅三年的公司,支持29种语言的AI模型,助力全球信息传播。该公司在印度扩展团队,专注于多语言技术支持及创作者服务,同时探索AI伦理与多模态交互未来。
近日,一场由计算机科学家莱克斯·弗里德曼(Lex Fridman)与印度总理纳伦德拉·莫迪(Narendra Modi)共同参与的长达三小时的播客引发了广泛关注。这场播客以印地语、英语甚至俄语等多种语言流播,被许多人誉为迄今为止最佳的配音作品。这种近乎超现实的人工智能翻译技术几乎与原声无异,这得益于一家成立仅三年的人工智能初创公司——ElevenLabs的技术支持。这项技术还被用于将莱克斯在基辅对乌克兰总统弗拉基米尔·泽连斯基(Volodymyr Zelenskyy)的采访翻译成英语、乌克兰语和俄语。
尽管这不是莫迪总理首次利用人工智能进行翻译,但这次合作对ElevenLabs而言意义非凡,因为它帮助世界领导人用多种语言向全球观众传递信息。负责印度ElevenLabs业务的希达拉特·斯里尼瓦桑(Siddharth Srinivasan)在接受AIM采访时提到,印度是ElevenLabs迄今为止最大的市场,公司正在积极扩大其在该国的团队,以构建语音人工智能的未来。他认为,对于一个语言多样性丰富且对可访问性需求极高的国家而言,这无疑是一个巨大的机遇。斯里尼瓦桑透露,ElevenLabs目前在印度已接近拥有10名员工,主要集中在商业相关职位,并计划进一步扩展。这一趋势与西方实验室和初创企业在印度拓展业务的步伐一致。据报道,OpenAI和Perplexity也准备不久后在印度展开布局。上个月,总部位于波兰的初创公司完成了一轮新的融资,估值达到33亿美元,融资金额为1.08亿美元。
ElevenLabs从2022年4月的一个周末项目起步,当时创始人马蒂·斯坦尼斯瓦夫斯基(Mati Staniszewski)和皮奥特·达布科夫斯基(Piotr Dabkowski)着手解决配音质量差的问题,利用逼真的语音合成技术开辟新天地。语音用户界面的重要性尽管语音人工智能领域的竞争异常激烈,包括诸多传统科技公司,但ElevenLabs在印度市场的差异化优势在于能够精准应对不同的口音和语言。ElevenLabs为其人工智能音频技术提供了多个独特的模型,专门针对不同的应用场景,如文本转语音(TTS)和语音转文本(STT)。斯里尼瓦桑补充道:“我们在印地语等印度语言中拥有世界上最快的语音转文字模型。”截至目前,该公司支持11种印度语言,并计划进一步扩展。然而,斯里尼瓦桑指出,“如果双方各有八到十一种语言,[你就覆盖了]印度的70%。”许多印度语言的数字化数据不足仍然是一个明显的挑战。ElevenLabs通过战略伙伴关系和社区参与构建数据集来应对这一问题。
总体而言,该公司的多语言人工智能模型支持29种语言,在每种语言中提供高度真实的、富有情感的声音。此外,他们的对话式人工智能模型支持32种语言,使自然、实时的对话成为可能。他们还在99种语言中开发了一种先进的语音转文本模型,其中包括11种印度语言。印度创作者经济的增长ElevenLabs有效地将其技术产品化,以迎合内容创作者和开发者的需求。其API用户友好,支持大规模集成,特别吸引寻求可扩展解决方案的开发者和企业。播客创作者通常是该公司的主要目标受众。除弗里德曼外,印度科技播主瓦鲁恩·梅亚也利用ElevenLabs的技术为自己的品牌及其他公司服务。该公司还与神经科学家兼播客安德鲁·休伯曼(Andrew Huberman)合作,为他的《Huberman实验室》播客将内容配音成印地语和西班牙语。他们与Spotify的合作有助于生产由人工智能叙述的有声书。斯里尼瓦桑提到,星空体育使用其技术将史蒂夫·史密斯的声音配音成印地语和泰米尔语,并将板球内容本地化以吸引更多观众。
在新功能和合作伙伴方面,去年ElevenLabs推出了GenFM(类似于Google的NotebookLM)用于多说话人播客,并与Pocket FM合作帮助作家将故事转化为音频。除了内容创作市场,印度的重点行业还包括客户服务和教育。最近,该公司还在班加罗尔举办了一场黑客马拉松作为其全球巡展的一部分,印度的注册人数最高。展示的项目包括一个用于情感支持的人工智能助手,一个具有指定角色的内容创建人工智能视频框架,以及一个用于改善农村地区语音人工智能解决方案的无障碍性,尤其是在聊天机器人有限的地区。
人工智能的未来不是单极化的拥有YouTube十年经验的斯里尼瓦桑了解该国的创作者生态系统。他认为人工智能的未来不会局限于单一界面——尽管语音将是其中的一大支柱。他指出了媒体和技术向多模态交互发展的持续趋势,即便在未来,人们也将通过语音、文本、视频和视觉与人工智能互动。“即使在生成式人工智能兴起之前,人们就已经在使用Alexa、Google Assistant和Siri等技术,”他说。但他相信,语音将继续是最自然的界面,因为它依然是最基础且广泛使用的交流形式,深深嵌入到消费者和商业互动中。斯里尼瓦桑还承认了深度伪造的风险,并强调ElevenLabs通过监管、同意授权和可追溯性来防止滥用。
(以上内容均由Ai生成)