Navana.ai用语音AI打破印度数字鸿沟
快速阅读: Navana.ai致力于解决印度数字鸿沟,通过语音AI技术使民众能用母语访问应用和服务,已与多家机构合作,支持12种语言和45种方言,助力数字包容性。
自2016年以来,印度互联网用户基数迅速增长,这得益于廉价的数据服务和智能手机的普及。然而,即使在今天,仍有大量民众难以使用数字服务,原因或是缺乏技能,或是互联网主要以英语为主。
Navana.ai 致力于通过让人们能够以自己的语言访问应用程序和服务来改变这一现状。该公司的理念源于一份CBWE报告,报告显示只有38%的印度家庭具备数字素养,而根据2011年人口普查和Lok基金会—牛津大学的一项调查,仅有6%至10%的印度人能说英语。这意味着,在这个拥有数千种语言和方言的国家里,许多人无法访问以英语为主的数字服务。
对于Raoul和Jai Nanavati兄弟而言,这些障碍是他们日常生活中无法忽视的问题。他们周围的人在进行最简单的数字操作时也感到困难:祖母需要帮助才能在智能电视上找到她喜欢的节目,家政工人在使用银行应用程序汇款时遇到难题,出租车司机请求他们帮忙下载应用程序。
为了深入了解终端用户面临的挑战,两兄弟遍访印度各地,最终得出一个简单假设:印度人更倾向于使用语音而非文字,尤其是在自己的母语环境中。这促使他们在2018年创立了Navana.ai,一家旨在让印度人用自己的语言使用应用程序和服务的初创公司。“我们的目标非常明确:让印度的数字接入真正实现包容性。”Raoul在接受《YourStory》采访时说道。
从零开始构建并克服语言障碍
最初名为Navana Tech的公司开始为企业应用和网站构建无障碍层。当时,团队尝试了谷歌和微软的语音AI技术,但在嘈杂的农村环境中发现它们的效果不佳。
“那时我们有两个选择:等待大型科技公司改进技术,或者自己动手。”Jai表示。对于这家初创公司来说,最大的挑战在于缺乏印度语言的语音数据,特别是那些较少使用的低资源语言。
为了解决这个问题,团队首先与微软研究院合作,收集了1600小时的奥迪亚语语音数据,并将其开源。随后,与班加罗尔印度科学研究所、盖茨基金会和马德拉斯印度理工学院的合作又增加了约15000小时的九种语言和45种方言的数据。
公司在面对印度的语言复杂性时遇到了另一个挑战。“语言在边界处混合,英语渗入地方口语,即使是‘收据’这样的词在印度也可能有三四种不同的发音。”Jai解释道。这种差异导致Navana.ai的自动化系统出现问题。
为此,Navana.ai建立了多样化的数据集,微调模型,并进行了质量检查以识别失败点。“例如,在卡纳达语中,单词可以独立存在或合并成长词。训练模型以适应这种灵活性至关重要。”Jai说。
从客服中心到银行业务:为印度打造产品
目前,这家语音AI初创公司拥有三项主要产品。首先是面向企业的客服中心AI解决方案,帮助企业像管理人类员工一样部署和管理AI代理,涵盖从构建和启动语音代理到实时监控、评估及与业务系统的集成等所有环节。
其次是Bodhi语音识别API平台,允许开发者构建语音启用的应用程序。目前,它支持超过12种语言和40多种方言,能够在嘈杂环境中运行,处理混码语言,并处理实时和录制音频。企业可以利用Bodhi转录电话、分析对话以及提供基于语音的服务。
第三是音频智能API,用于分析通话以提取情感、意图和关键词,帮助企业提高绩效和自动化水平。
位于班加罗尔的Navana.ai与超过40个客户合作,正在构建一个完全拥有其数据、模型和部署端到端的主权AI。该公司正在将复杂服务如贷款发放、数字银行和政府服务交付本地化,使其可用当地语言访问。
该领域的其他参与者包括专注于大规模语言模型的Sarvam和为企业发展会话AI解决方案的Gnani。
“与将印度语言视为次要层次的全球AI平台不同,Navana.ai的模型是从头开始使用真实世界中的印度语音数据训练的,涵盖了各种口音、方言和嘈杂环境,以满足印度市场的需求。”Raoul解释道。这项技术针对低带宽环境下的混码语言进行了优化,这是全球模型通常难以应对的问题。
这家初创公司与Bajaj Finserv合作,利用其多语言语音机器人每月管理超过150亿卢比的个人贷款发放。它还与Ujjivan小金融银行合作开发了Hello Ujjivan应用程序,这是一款多语言、语音主导的银行应用,在Google Play商店上的下载量超过一百万次。
此外,该公司此前在农业领域构建了咨询工具,农民可以通过WhatsApp以自己的语言分享语音笔记或图片来获取作物指导。它还为马哈拉施特拉邦政府创建了一个马拉地语的COVID-19疫苗接种机器人,实现了基于语音的预约预订。
“在这样一个口语经常弥补识字率和访问差距的国家,语音AI有力量大规模地普及数字服务,”Raoul表示。
该初创公司计划专注于印度市场,扩展其服务,帮助企业采用AI技术,服务于客户和内部流程。
“就像Infosys和TCS推动了印度的数字化转型一样,我们希望引领其AI转型,”Raoul说,“Navana.ai的优势在于专注并深度嵌入企业。我们是在印度建立,为印度服务。”
创始人表示,Navana.ai不会收集个人可识别信息,而是独立从现场收集数据集,而非依赖客户操作。对于像银行这样的受监管实体,它提供现场部署,将模型直接安装在客户的基础设施内,确保安全性和隐私性。
为了保持高准确度的印度语音转录并正确理解它们,Navana.ai从基础模型开始,与每位客户合作,针对特定环境微调模型,解决背景噪音或产品名称地区发音等问题。
这家初创公司在由Antler India领投的Pre-Series A轮融资中筹集了7亿卢比,参与方包括企业家Ronnie Screwvala、Ajay Agarwal和Sandeep Singhal,总融资额达到13.2亿卢比。目前,它正在努力扩大覆盖范围至20多种印度语言,包括低资源方言和少数民族文字。
“长期愿景是为所有印度语言提供平等的语音AI服务访问,”Raoul说。其路线图包括在呼叫中心自动化、本土搜索、治理、农业和医疗保健领域的更深入应用,以及提高转录质量。
他总结道,“印度是一个独特的群体,我们非常自豪能够为我们的国家解决问题。”
(以上内容均由Ai生成)