开源 LLM 为印度的负责任 AI 铺平了道路

快速阅读: 《印度分析杂志》消息，开源大模型助力印度发展负责任AI。专家指出，通过微调模型以反映国家多样性，可提升AI道德与效率。强调消除偏见、保障数据安全及制定伦理准则的重要性，印度正利用AI应对社会挑战。

开源大型语言模型正成为印度追求负责任人工智能的重要工具。通过允许开发者基于本地相关数据集微调模型，组织正在构建能够体现国家多样性的解决方案。在最近与《AIM》的对话中，由Meta支持，瓦德瓦尼人工智能的首席AI/ML科学家阿尔潘·拉瓦尔和联合关怀公司的首席技术官兼联合创始人索拉夫·班纳吉解释了这种方法如何使人工智能既更具道德又更有效。

“我们在医疗、农业和基础教育领域进行项目，利用大型语言模型（LLMs），其中一些得到Meta的支持，”拉瓦尔说。构建可靠的生成式人工智能互动，确保模型的一致性、准确性及可预测性。

拉瓦尔进一步补充说，开源模型在微调、在其顶部添加额外层以及从头开始重新训练方面提供了很多自由度。阿尔潘分享了另一个例子，他们使用人工智能开发了一种口语流利度评估工具，目前部署在印度古吉拉特邦的公立学校中。这一倡议利用了AI4Bharat的开源模型。拉瓦尔表示，他们从全州收集学生数据，并利用这些学生数据和通过伪标签生成的合成数据对更先进的模型进行了训练。他强调，如果没有基础模型的开源化，这项成果便无法达成。

班纳吉补充说，如果任何公司正在针对垂直用例，最好的方法是选择一个开源模型并在其上进行后训练。“我们应该专注于现有预训练模型的后训练，并与用例一起工作，”他说。

解决偏见

阿尔潘说，开源本身并不能神奇地消除偏见。“这取决于方法论、模型训练所使用的数据类型等，”他说。他解释说，许多开源模型是在与农村和未服务社区观察到的数据差异显著的数据集上训练的。“为了防止偏见，我们必须对这些数据集进行微调，这是必不可少的。”

阿尔潘说，开源本身并不能神奇地消除偏见。“这取决于方法论、模型训练所使用的数据类型等，”他说。班纳吉讨论幻觉时说，LLMs不会停止产生幻觉，我们不得不接受这一点。然而，他认为将权重、偏差和训练方法公开是有道理的。他解释说，这种透明性允许公众审查并帮助识别内在错误。“将其公开以接受公众审查。让人们决定他们要进入什么，而不是封闭、封闭的方法。”

他还对偏见提出了细致入微的观点，认为它并不总是负面的。他举了一些常见的人工智能局限性的例子，例如生成一个模拟时钟在6:25或左撇子书写的图像。班纳吉解释说，这些局限性源于训练数据偏向某些表现形式。为了提高模型准确性，他说可能有必要引入一种不同的偏见，他称之为积极偏见。他以医疗为例，说明准确性比完全中立更重要。在这种情况下，增加积极偏见可以帮助系统更加准确，即使这意味着做出权衡。

安全与人工智能护栏

对于社会领域的组织来说，个人身份信息（PII）的安全仍然是首要关注点。阿尔潘说：“我们有一个规则——大致来说——我们根本不将PII引入组织，除非在某些情况下我们别无选择。”

关于伦理护栏和治理，阿尔潘说没有“一刀切”的解决方案。开源模型的伦理使用取决于其预期应用。另一方面，班纳吉说由于人工智能处理和训练的分散性质，需要类似航空安全的“政府间倡议”。他补充说，尤其是在人机交互领域，需要明确的指导方针，明确“哪些行为在某个领域是可以接受的，哪些是不可接受的”。

班纳吉说，印度不应盲目效仿西方，而应为自己在负责任人工智能方面的工作感到自豪，并赞扬NASSCOM的开发者指南。他表示，开发者指南非常实用，是个人和组织理解自身责任的重要参考，无论是在使用、构建还是微调基础模型时。

阿尔潘说，印度在利用人工智能造福社会方面的领导地位得到了强有力的政府合作的支持。“印度是世界上第一个强调人工智能造福社会的国家——这不仅体现在形式上，也体现在实质上，”他补充道。他还表示，开源人工智能正被用于解决从医疗、农业到教育和气候等领域的紧迫挑战。“纳丹·尼莱肯多次说过，印度将成为世界的应用案例之都，这同样适用于人工智能，”他总结道。

(以上内容均由Ai生成)