Sarvam AI 能否克服挑战，在 INDIAai 使命下建立印度第一个本土 LLM？

快速阅读: 据《经济时报》称，总部位于班加罗尔的Salvam AI成为首个入选“印度人工智能使命计划”的初创企业，将获4096块NVIDIA H100 GPU支持开发本土大语言模型。该项目总投资12.5亿美元，目标是使印度成为全球AI领导者。然而，Salvam面临数据集整合、人才短缺和技术挑战等问题。

上周，总部位于班加罗尔的萨尔瓦姆人工智能公司成为首家被印度官方选中，在“印度人工智能使命计划”下开发本土基础大型语言模型的初创企业。据媒体报道，该公司是从超过400名申请者中脱颖而出的。

印度官方将向萨尔瓦姆分配来自入围公司如Jio、CtrlS、Yotta和塔塔通信的4,096块NVIDIA H100 GPU，这一合作为期六个月。“印度人工智能使命计划”于2024年3月宣布，总投资额为10,372千万卢比（约12.5亿美元），旨在推广人工智能创新和计算资源的普及，提升数据质量，并推动印度成为全球人工智能领域的强国。为此，政府开始投资建设一个高端且普遍可访问的计算设施，配备总计18,693个GPU。

值得注意的是，2022年联合国教科文组织发布的教育报告显示，印度在全球范围内拥有最高比例的人工智能技能渗透率。同时，2024年斯坦福大学的人工智能指数报告也显示，印度在人工智能的发展中处于世界领先地位。萨尔瓦姆作为印度人工智能使命计划的第一个参与者，承载着实现这些目标的重任。

印度方面认为，这款拥有700亿参数的主权模型将能够与全球顶尖模型竞争。萨尔瓦姆已确认，其能够进行复杂推理及以语音为主的交互，并能流利掌握包括英语在内的22种印度语言的模型将是安全的，预计将在六个月内部署至人口规模的应用场景。

然而，不可否认的是，完全在印度完成这款大型语言模型的训练与发展将会面临诸多挑战。语言巴别塔：获取并整理代表印度语言多样性的大型数据集，尤其是包含方言的部分，既困难又繁琐。非英语的印度语言有着各自复杂的语法、结构和句法。构建一个能够识别所有这些特征并且保持流畅的上下文模型并非易事，尤其是在与全球大型语言模型进行对比测试时。此外，还需要在国家复杂的社会规范背景下识别并消除性别、宗教、种姓等方面的偏见。

内容及其不满：数据清洗工作将耗费大量时间，版权和许可问题也可能带来困扰。能言善辩：印度虽然拥有庞大的劳动力队伍，但构建大型语言模型需要具有自然语言处理、机器学习以及复杂架构高级技能的研究人员、工程师和语言学家。在全球市场中，这类人才不仅稀缺还很难留住。最终的成功与否取决于能否激发研究人员、行业专家和开发人员的兴趣，基于萨尔瓦姆的模型开发应用和服务，从而促进广泛应用。

网络互联：与其他设备、应用程序和平台的互操作性同样是一项巨大挑战。同样地，适应不断发展的技术、架构和优化技术也是必不可少的。

基础不足：尽管印度对全球人工智能研究的贡献不到1.5%，高性能集中式计算资产尚不成熟，云计算基础设施刚刚趋于稳定，学术界正在追赶步伐，而人才库目前仍处于流动性状态，萨尔瓦姆依然需要创造奇迹。

数据赤字：印度已经加大了对人工智能的资金支持力度。现在它必须进一步努力弥补国家在数据方面的劣势。因为数据充足是人工智能发展的核心要素。印度人工智能使命计划的数据平台AIKosh刚刚上线。但这仅仅是由政府管理的一个起点。印度必须在遵守隐私和基于规则的规范框架内，访问像Jio、Airtel、MakeMyTrip、Zomato和PhonePe等实体所持有的大量多模态数据，以及锁定在卫生、教育、农业、金融、铁路和航空等部门中的海量数据。

合作：正式的政府间交流项目、与世界知名大学的合作以及其他双边和多边安排可以帮助印度缩小因起步较晚而产生的差距。根据咨询公司Zinnov的数据，跨国公司在印度建立了大约2,975个全球共享服务中心。这些中心是功能齐全的创新和研发中心，雇佣了190万名专业人士，2024年创造了650亿美元的收入——这是世界上任何其他国家都无法比拟的数字。这无疑是一个值得追求的目标。

（免责声明：本文中的观点仅代表作者个人观点。此处表述的事实和观点并不代表www.economictimes.com的观点。）

(以上内容均由Ai生成)