Sarvam：印度法学硕士

快速阅读: 《财经快报》消息，甘什·纳塔拉詹指出，印度开发主权大型语言模型需六步：设计架构、数据处理、微调应用、训练模型、社区准备及部署。强调利用本地资源与合作，聚焦印度需求，助力全球AI竞赛。

甘什·纳塔拉詹，5F世界、霍尼韦尔自动化和灯台社区基金会主席

当政府宣布任命总部位于班加罗尔的人工智能（AI）初创公司Sarvam开发印度首个主权大型语言模型（LLM）时，它踏上了一条大胆的征程，这需要许多学术和研究机构的支持。为了真正引领成为发达的AI国家，还需要与城市和州政府、大中型企业以及印度庞大的信息技术（IT）界进行一些金融和实施合作。首先，让我们了解过去二十年在大型语言模型（LLM）机遇方面的进展。自1956年麻省理工学院的约翰·麦卡锡发明人工智能这一术语以来，AI经历了多次热潮周期。真正的稳步进展可能始于15年前，当时数据库成为数据仓库，并且描述性数据分析和静态形式的展示开始采用机器学习技术，朝着预测性和规范性分析发展。这催生了第一波AI和算法模型。同样阅读：《咀嚼的机会》
基于大数据的算法决策创建了强大的预测模型和应用程序，如企业客户服务和供应链。天气预报和导航系统中的交通规避让我们的工作和生活更加便捷。谷歌于2017年发表的一篇题为《注意力就是你所需要的》的论文提出了一种新的“Transformer”架构，使计算机能够更好地理解人类交流模式。这种“注意力机制”将AI的关注点集中在文本中最相关的部分，为LLM铺平了道路，这些模型可以接受任何输入标记（如句子）并预测下一个标记。突然间，被称为生成式AI的革命诞生了。直到中国推出了深度求索，ChatGPT和基于大规模计算的LLM一直被视为AI的未来。

在这种背景下，在我们阐明公司和参与者面前的道路之前，让我们先了解我们的印度努力和参与者。一种本土的基础AI模型需要支持多种语言和声音，并成为核心AI基础设施的一部分，为印度各地的城市、村庄、企业和个人提供应用。在这样一个需要创新的国家，LLM需要结合Nvidia支持的ChatGPT的计算能力和大规模学习能力，以及深度求索的蒸馏和敏捷推理能力。同样阅读：《变革之轮：探索印度乘用车市场的新兴趋势》

让我们尝试以六个简单的步骤来制定执行这个雄心勃勃项目的路线图。

1）开发基础模型的架构，这需要使用基于Transformer的架构，优化用于自然语言处理。该架构本身可能需要支持多种模型，例如农业或天气预报，以及更复杂的数十亿参数的城市和国家行政支持模型。

2）识别数据源并收集、存储、分析和传播这些数据。关于这个国家的数据集来源巨大，从古老的文献、书籍和文章到网站和多个数据图书馆。在LLM处理之前，“去重”或消除重复和冗余、筛选无关信息和去除噪声的预处理任务需要仔细选择和精心设计。

3）微调LLM不仅适用于大型系统，还适用于垂直领域和横向功能应用。这包括特定任务，如语言输入和翻译、文本转换为信息和情境化知识，以及优化特定地理区域或应用领域的结果。

4）训练LLMs，这往往是消耗最多计算能力和能源的部分。必须全面进行，以确保对单词或句子进行预测、持续更新模型以纳入新信息、并在训练过程中通过令牌替换使用包含新知识的新令牌升级能力。

5）准备用户社区，这是新兴数字世界中新应用成功或失败的关键因素，即使是开发和实施普通系统也是如此。构建辅助用户使用的并行学习模块，帮助用户在他们选择的上下文和语言中查询和理解，将是至关重要的。精心设计适应性学习系统并在每次发布新模型时同时部署，需要最顶尖的教学设计师以确保成功。

6）在生产环境中部署经过培训和广泛测试的各种模型，使其能够以最少的早期幻觉开始回答问题，从而避免被拒绝。政府展现了极高的远见，愿意提供计算资源，并同时与图形处理器即服务提供商合作，确保不走捷径，以免LLM的输出结果受到质疑。与印度理工学院马德拉斯分校的合作也应该为Sarvam的创始人提供深入的研究支持，支持其进入新的知识和智慧领域。使用本地资源和新一代高素质青年应该能够培养出新一代的产品和平台建设者，参与正在发生的革命。

我们相信自己发起的行动将使我们在全球AI竞赛中处于领先地位，这未免过于野心勃勃，甚至荒谬。美国和中国在AI方面拥有巨大的优势，我们应该明智地建立可服务于印度目的的可比LLM，然后再着眼于全球成功。我们应该确保嵌入价值3000亿美元的印度IT行业和成功的印度软件产品行业协会圆桌论坛以及全国软件和服务公司协会中的智慧在需要时得到利用。这应该在不抑制年轻印度人的创业精神的情况下进行，他们有着真正实现愿景印度的抱负。这项新使命有望超出我们的预期取得成功。

(以上内容均由Ai生成)