OpenAI推出IndQA,促进印度多语言AI发展
快速阅读: OpenAI推出IndQA,新评估基准聚焦印度文化与语言,涵盖12种语言及10个文化领域,由261位专家构建,旨在改善AI在非英语地区的性能与可访问性。
位于旧金山的人工智能研究与部署公司OpenAI,于本周二推出了IndQA,这是一项新的评估基准,用于评价人工智能系统在印度文化和语言上的表现。该公司表示,其使命是让通用人工智能(AGI)惠及全球所有人类,跨越不同的语言和文化。目前,世界上约有80%的人口不以英语作为母语,然而大多数现有的评估基准在衡量非英语语言能力方面存在不足。
这意味着现有的多语言评估基准,例如MMMLU,已经饱和,无法有效衡量实际进展。此外,当前的评估基准主要集中在翻译或多项选择任务上,未能充分反映评估人工智能系统语言能力的关键因素——理解上下文、文化、历史以及人们生活中重要的事情。
因此,OpenAI开发了IndQA这一新基准,旨在评估人工智能模型在印度语言中理解和推理与当地文化相关问题的能力。据OpenAI首席技术官B2B应用的Srinivas Narayanan介绍,IndQA由来自12种语言的261位专家合作构建,填补了一个关键空白,能够实现公平且严格的评估,反映印度的文化和语言多样性。
Narayanan先生指出,该基准将帮助所有人工智能模型在目前全球数据集中代表性不足的语言和背景下表现得更好。虽然OpenAI计划为其他语言和地区创建类似的评估基准,但鉴于印度约有十亿人不以英语为母语,使用22种官方语言,印度成为公司显而易见的起点。
公司官员表示,这项工作是OpenAI持续致力于改善产品和工具,以便更好地服务印度用户,提高其技术在全国范围内的可访问性,惠及从学生、农民到教育工作者等各类用户。IndQA评估了印度语言中关于印度文化和日常生活知识及推理的问题。它涵盖了12种语言和10个文化领域的2278个问题,由来自印度的261位领域专家共同创建。
与现有的MMMLU和MGSM等评估基准不同,IndQA设计用于探究文化细微、推理密集的任务,这些任务是现有评估难以捕捉的。IndQA涉及广泛的文化相关主题,包括建筑与设计、艺术与文化、日常生活、食品与烹饪、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与精神生活以及体育与休闲,题目以孟加拉语、英语、印地语、英印混杂语、卡纳达语、马拉地语、奥迪亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语和泰米尔语等12种语言原生编写。
IndQA采用基于评分标准的方法,每个数据点包括一种印度语言的文化背景提示、英文翻译以供审核、评分标准和反映专家期望的理想答案。来自印度10个不同领域的专家,作为相关语言和英语的母语者,拥有深厚的专业知识,起草了与其地区和专长紧密相关的复杂推理问题。每个问题都在当时最强的OpenAI模型上进行了测试,包括GPT-4o、OpenAI o3、GPT-4.5和部分公开发布的GPT-5。
需要注意的是,由于各语言间的问题并不相同,IndQA并非语言排行榜,跨语言得分不应被解读为直接的语言能力比较。相反,IndQA将用于衡量同一模型家族或配置随时间的改进情况。
在媒体会议上,Narayanan先生还提到:“印度可以成为展示如何利用人工智能促进社会公益,包括教育、健康和农业等方面的典范。”他进一步表示,公司在全球拥有4-5百万开发者。“我们正在大力推动开发者生态系统的发展,让他们能够更多地利用人工智能。我们将继续改进我们的模型,推动技术前沿,帮助企业拥有更好的代理未来。”
发布时间:2025年11月4日 21:10 IST
(以上内容均由Ai生成)