OpenAI推出IndQA,促进印度多语言AI发展

发布时间:2025年11月5日    来源:szf
OpenAI推出IndQA,促进印度多语言AI发展

快速阅读: OpenAI推出IndQA,新评估基准聚焦印度文化与语言,涵盖12种语言及10个文化领域,由261位专家构建,旨在改善AI在非英语地区的性能与可访问性。

位于旧金山的人工智能研究与部署公司OpenAI,于本周二推出了IndQA,这是一项新的评估基准,用于评价人工智能系统在印度文化和语言上的表现。该公司表示,其使命是让通用人工智能(AGI)惠及全球所有人类,跨越不同的语言和文化。目前,世界上约有80%的人口不以英语作为母语,然而大多数现有的评估基准在衡量非英语语言能力方面存在不足。

这意味着现有的多语言评估基准,例如MMMLU,已经饱和,无法有效衡量实际进展。此外,当前的评估基准主要集中在翻译或多项选择任务上,未能充分反映评估人工智能系统语言能力的关键因素——理解上下文、文化、历史以及人们生活中重要的事情。

因此,OpenAI开发了IndQA这一新基准,旨在评估人工智能模型在印度语言中理解和推理与当地文化相关问题的能力。据OpenAI首席技术官B2B应用的Srinivas Narayanan介绍,IndQA由来自12种语言的261位专家合作构建,填补了一个关键空白,能够实现公平且严格的评估,反映印度的文化和语言多样性。

Narayanan先生指出,该基准将帮助所有人工智能模型在目前全球数据集中代表性不足的语言和背景下表现得更好。虽然OpenAI计划为其他语言和地区创建类似的评估基准,但鉴于印度约有十亿人不以英语为母语,使用22种官方语言,印度成为公司显而易见的起点。

公司官员表示,这项工作是OpenAI持续致力于改善产品和工具,以便更好地服务印度用户,提高其技术在全国范围内的可访问性,惠及从学生、农民到教育工作者等各类用户。IndQA评估了印度语言中关于印度文化和日常生活知识及推理的问题。它涵盖了12种语言和10个文化领域的2278个问题,由来自印度的261位领域专家共同创建。

与现有的MMMLU和MGSM等评估基准不同,IndQA设计用于探究文化细微、推理密集的任务,这些任务是现有评估难以捕捉的。IndQA涉及广泛的文化相关主题,包括建筑与设计、艺术与文化、日常生活、食品与烹饪、历史、法律与伦理、文学与语言学、媒体与娱乐、宗教与精神生活以及体育与休闲,题目以孟加拉语、英语、印地语、英印混杂语、卡纳达语、马拉地语、奥迪亚语、泰卢固语、古吉拉特语、马拉雅拉姆语、旁遮普语和泰米尔语等12种语言原生编写。

IndQA采用基于评分标准的方法,每个数据点包括一种印度语言的文化背景提示、英文翻译以供审核、评分标准和反映专家期望的理想答案。来自印度10个不同领域的专家,作为相关语言和英语的母语者,拥有深厚的专业知识,起草了与其地区和专长紧密相关的复杂推理问题。每个问题都在当时最强的OpenAI模型上进行了测试,包括GPT-4o、OpenAI o3、GPT-4.5和部分公开发布的GPT-5。

需要注意的是,由于各语言间的问题并不相同,IndQA并非语言排行榜,跨语言得分不应被解读为直接的语言能力比较。相反,IndQA将用于衡量同一模型家族或配置随时间的改进情况。

在媒体会议上,Narayanan先生还提到:“印度可以成为展示如何利用人工智能促进社会公益,包括教育、健康和农业等方面的典范。”他进一步表示,公司在全球拥有4-5百万开发者。“我们正在大力推动开发者生态系统的发展,让他们能够更多地利用人工智能。我们将继续改进我们的模型,推动技术前沿,帮助企业拥有更好的代理未来。”

发布时间:2025年11月4日 21:10 IST

(以上内容均由Ai生成)

你可能还想读

英财政拨款助力警用科技升级,包括面部识别与无人机应用

英财政拨款助力警用科技升级,包括面部识别与无人机应用

快速阅读: 英国财政部在2024-2025财年提供5550万英镑,四年共2.34亿英镑,资助警察技术投资,内政部推广实时面部识别、无人机、自动化公众联系和人工智能等技术。 英国独立公共支出监督机构表示,在2024-2025财政年度,财政部在 […]

发布时间:2025年11月5日
康奈尔教授开发多感官学习AI系统

康奈尔教授开发多感官学习AI系统

快速阅读: 康奈尔大学安德鲁·欧文斯教授正开发一种能看、听、触的人工智能系统,模仿儿童学习方式,使AI更直观。该研究已产生成果,如为无声视频生成音轨。 ITHACA, N.Y. — 康奈尔大学的一位教授正在开发一种能够看、听、触的人工智能系 […]

发布时间:2025年11月5日
AI不会取代你,但会用AI的人将超越你

AI不会取代你,但会用AI的人将超越你

快速阅读: 首席收入官指出,面对AI兴起,关键在于适应而非恐惧。AI改变任务而非取代人类,学会合作可保职位并扩展职能。 作为一家在科技与教育之间架起桥梁的公司的首席收入官,我经常被问及三个相同的问题:“人工智能会取代我的工作吗?”、“人工智 […]

发布时间:2025年11月5日
工会合同保护工人免受AI威胁,AFL-CIO主席呼吁设立严格监管

工会合同保护工人免受AI威胁,AFL-CIO主席呼吁设立严格监管

快速阅读: AFL-CIO主席莉兹·舒勒强调工会合同是保护工人免受AI滥用的关键,主张将AI转化为对工人有利的工具,同时讨论了教皇利奥十四世支持工人的教学文件。 去年SAG-AFTRA罢工的一个主要问题是人工智能如何被用来破坏艺术。AFL- […]

发布时间:2025年11月5日
也门萨那大学举办AI与信息技术文凭项目评审会

也门萨那大学举办AI与信息技术文凭项目评审会

快速阅读: 萨那大学举办研讨会,审查并完善“人工智能”和“信息技术”专业文凭课程,旨在培养具备必备技能的毕业生,满足劳动力市场需求。校长强调课程提升重要性,质量中心和计算机中心参与其中。 萨那 – 萨巴:周二,萨那大学发展与质量保证中心举办 […]

发布时间:2025年11月5日
比特币矿商CleanSpark拓展AI业务,德州获285兆瓦电力支持

比特币矿商CleanSpark拓展AI业务,德州获285兆瓦电力支持

快速阅读: 比特币矿商CleanSpark扩大电力容量28%,购地271英亩建立人工智能数据中心,确保285兆瓦电力供应,标志业务多元化重要进展,应对能源密集型计算需求增长。 比特币矿商CleanSpark在10月将其电力容量扩大了28%, […]

发布时间:2025年11月5日
微软Teams新功能引发隐私担忧,AI监控员工效率

微软Teams新功能引发隐私担忧,AI监控员工效率

快速阅读: 微软Teams集成办公室位置功能,自动记录用户位置,简化协调并支持AI预订;同时推出基准功能,跟踪用户与AI互动评估技术整合。微软及亚马逊等公司推行返岗政策,引发对员工效率军备竞赛及隐私侵犯的担忧。 位置更新只是众多技术中最新的 […]

发布时间:2025年11月5日
OpenAI发布Sora安卓版,生成超现实视频

OpenAI发布Sora安卓版,生成超现实视频

快速阅读: OpenAI在Android平台发布Sora应用,支持生成超逼真AI视频,需邀请码使用。应用扩展至美、加、日、韩等国,提供社区功能。 在iOS平台推出一个月后,OpenAI终于在Android平台上发布了其Sora应用程序,让更 […]

发布时间:2025年11月5日