一种方言,一次一个寓言:泰卢固语模型为印度 AI 梦想打开一扇窗
快速阅读: 据《印度快运》最新报道,印度Swecha项目通过四万名志愿者收集泰卢固语数据,推动本土LLM发展。尽管面临高昂成本,Swecha寻求更高效方案,强调AI应服务所有人,应用场景广泛,从消除语言障碍到解决区域问题。
印度试图构建自己的大型语言模型(LLM)时,Swecha 在记录语言(以泰卢固语为例)方面的经验为理解印度模型需要考虑的因素提供了一个窗口。
印度的语言细节丰富,有许多独特之处——方言在几公里内就会发生变化,并且根据宗教、社区、种姓等因素有所不同。某些语言的细微之处仅存在于口语中,很少被记录或规范化。例如,当气旋接近安得拉邦沿海地区时,人们会说“风声如同马嘶鸣”。在讲泰卢固语的农业社区中,人们用农耕隐喻来描述疾病。一个流行的例子是:“我的呼吸感觉像收割庄稼一样。”现有的大型语言模型(如ChatGPT、Gemini 或 Grok),虽然基于海量数据集训练,但无法捕捉这些细微之处。正是在这里,Swecha 和其他研究小组及初创公司希望利用印度特定的LLM做出改变。
Swecha 是自政府宣布意图创建本土基础人工智能模型以来,印度人工智能任务收到的67个提案之一。这个模型将考虑到印度语言的独特性和使用背景。Swecha 的数据收集工作始于2024年,完全由海得拉巴地区的工程学院志愿者领导。与特伦甘纳邦政府、国际信息技术学院(IIIT)海得拉巴、Ozonetel 和 Tech Vedika 软件公司合作,Swecha 组织了一次“人工智能之旅”,让工程学生熟悉新兴技术并招募他们作为志愿者来构建泰卢固语的LLM。通过这次活动,形成了一个由四万名志愿者组成的网络。“这些志愿者收集了泰兰加纳邦和安得拉邦各地区人们的语音和视频样本。我们要求人们谈论他们的职业、生活方式……我们收集了寓言、地方俗语……为了识别方言,我们让人们阅读一篇旧报纸文章。收集这种数字优先的数据不仅对未来的科技发展重要,也对文化传承至关重要。”Swecha 的联合创始人之一基兰·查德拉·亚拉格达解释道。
2005年,作为印度自由软件运动的一部分,Swecha 创建了一个操作系统,使用户能够用泰卢固语操作电脑——这是印度首个区域性语言的操作系统。2023年,他们创建了一个泰卢固语自动语音识别(ASR)系统——将语音转换为文本,使用了150万个语音样本和45,000名贡献者。2024年1月,Swecha 发布了一个名为《Chandamama 故事》的人工智能讲故事项目,该项目数字化了来自儿童月刊《Chandamama》的40,000个泰卢固语故事。然后,在2025年1月,随着构建人工智能模型的竞争加剧,亚拉格达和他的志愿者团队以及IIIT海得拉巴启动了一个名为Viswam AI的项目,致力于“全球南方的AI解决方案”。
现在,随着他们致力于构建LLM,Swecha 正在进行数据标注——以机器学习(一种AI)模型可以理解的方式分类分散的信息。下一步是引入能够构建可使用的AI模型的软件开发人员。构建泰卢固语LLM已成为Swecha 和Viswam AI的一项社区活动。在过去几个月里,他们一直在为学生组织人工智能研讨会,泰卢固语独立歌手拉姆·米拉亚拉同意在特伦甘纳邦各地免费举办音乐会,以鼓励LLM的数据收集。
然而,构建LLM并非易事。它需要大量的计算资源、专门的芯片(称为图形处理单元GPU)和高能耗。“运行一个规模类似于ChatGPT的LLM每天要花费数千万卢比,”亚拉格达解释道。“但这真的是正确的做法吗?不,从根本上来说不是。我们在印度有不同的应用场景。我们的文化联系和一切都很不同。当我们向前推进构建我们的人工智能模型时,我们必须思考更高效的方法。美国的大科技公司在使用粗放式计算。但还有其他方法。”
亚拉格达接着谈到了DeepSeek,这家中国人工智能公司以远低于美国科技巨头的成本构建了人工智能模型,并在这一领域的基准测试中表现出相似的性能。尽管亚拉格达对人工智能及其定位充满期望,但他表示这项技术需要让所有人都能参与进来。“人工智能将扮演尽职审查与智能辅助的角色,而不仅仅是自动化,”他说。
那么,为印度语言创建LLM的应用场景是什么?亚拉格达说可能性是无穷的。“首先,它为那些甚至不知道如何书写的印度用户打开了很多大门。如果模型是语音互动式的,我们将能够与世界另一端的任何人交流。这就是它的均衡化效果。”他补充说,这可能有助于解决健康和农业中的区域问题。他说,一旦我们有了这个理解地区细微差别和方言的基础模型,从斯里卡库拉姆的农民到尼扎马巴德的工人,任何人都可以使用人工智能。“想象一下,在泰伦加纳邦这样一个通过深井灌溉的地方,因触电身亡的情况屡见不鲜。如果农民能够用自己的方言和说话方式发出关闭深井的命令,那将会怎样?”亚拉格达说道。
(以上内容均由Ai生成)