英国AI项目助力威尔士语发展,NVIDIA技术为核心
快速阅读: 英国开发基于NVIDIA Nemotron的威尔士语AI模型,支持公共服务,促进语言使用,目标2050年达到百万使用者。
凯尔特语系——包括康沃尔语、爱尔兰语、苏格兰盖尔语和威尔士语——是英国最古老的语言。为了支持这些语言的使用者,英国主权AI计划正在构建一个基于NVIDIA Nemotron的人工智能模型,该模型能够以英语和威尔士语进行推理,后者目前在威尔士有约85万人使用。高质量的威尔士语AI推理将有助于提供公共医疗服务、教育资源和法律服务。
“我希望英国各地都能利用人工智能带来的好处。通过使AI能够以威尔士语进行推理,我们确保从医疗到教育的公共服务对每个人都是可访问的,无论他们使用哪种语言。”英国首相基尔·斯塔默表示,“这是最新的人工智能技术如何服务于公共利益、保护文化遗产并为全国解锁机会的一个有力例子。”
英国LLM项目于2023年成立,最初名为BritLLM,由伦敦大学学院领导,此前已发布了两款针对英国语言的模型。新推出的威尔士语模型是在与威尔士的班戈大学和NVIDIA合作下开发的,旨在促进威尔士政府提高语言活跃使用率的目标,目标是在2050年前实现一百万威尔士语使用者——这一计划被称为“威尔士语2050”。
英国本土的AI云提供商Nscale将通过其应用程序编程接口向开发者提供新模型。“我们的目标是确保威尔士语继续是一个活生生、不断发展的语言,与时俱进。”班戈大学Canolfan Bedwyr中心(该中心负责威尔士语言服务、研究和技术)的高级术语学家兼语言技术部主任格鲁菲德·普里斯说,“人工智能在帮助威尔士语作为第二语言的学习以及帮助母语者提高语言技能方面显示出巨大的潜力。”
新模型还可以通过使公共机构和在威尔士运营的企业能够翻译内容或提供双语聊天机器人服务,来提高威尔士资源的可访问性。这有助于包括医疗保健提供者、教育工作者、广播公司、零售商和餐厅业主在内的群体确保他们的书面内容在威尔士语中同样易于获取,如同英语一样。
除了威尔士语,英国LLM团队还计划将其用于新模型的方法应用于开发其他英国语言的人工智能模型,如康沃尔语、爱尔兰语、苏格兰语和苏格兰盖尔语,以及与国际合作者合作,为非洲和东南亚的语言建立模型。
“与NVIDIA和班戈大学的合作使我们能够在创纪录的时间内创建新的训练数据并训练新模型,加速了我们为威尔士语构建最佳语言模型的目标。”伦敦大学学院自然语言处理教授兼人工智能中心副主任庞图斯·斯特内托普说,“我们的目标是从威尔士模型中获得的见解应用于其他少数语言,在英国乃至全球范围内。”
利用主权AI基础设施进行模型开发
新的威尔士语模型基于NVIDIA Nemotron,这是一个包含开放权重、数据集和配方的开源模型系列。英国LLM开发团队采用了490亿参数的Llama Nemotron Super模型和90亿参数的Nemotron Nano模型,并在威尔士语数据上进行了后训练。
与英语或西班牙语等语言相比,威尔士语的可用AI训练源数据较少。因此,为了创建足够大的威尔士语训练数据集,团队使用了NVIDIA NIM微服务对gpt-oss-120b和DeepSeek-R1进行了翻译,将超过3000万条记录的NVIDIA Nemotron开放数据集从英语翻译成威尔士语。
他们通过NVIDIA DGX Cloud Lepton平台使用GPU集群,并利用数百个NVIDIA GH200 Grace Hopper超级芯片在Isambard-AI——英国最强大的超级计算机,获得了政府2.25亿英镑投资并在布里斯托尔大学设立——上加速了他们的翻译和训练工作负载。这个新的数据集补充了团队之前努力收集的现有威尔士数据。
班戈大学位于格温内斯郡——威尔士语使用者比例最高的县——正以其语言和文化专业知识支持新模型的开发。威尔士语翻译:“我们的目标是确保威尔士语继续是一个活生生、不断发展的语言,与时俱进。”——格鲁菲德·普里斯,班戈大学。
来自大学威尔士语言中心的普里斯带来了约二十年威尔士语言技术的经验。他和他的团队正在帮助验证机器翻译训练数据的准确性以及人工翻译评估数据的准确性,同时评估模型处理威尔士语细微差别的能力——例如,威尔士语单词开头的辅音会根据相邻单词发生变化。
该模型及威尔士训练和评估数据集预计将向企业和公共部门开放,支持进一步的研究、模型训练和应用程序开发。
“拥有威尔士语的人工智能能力是一回事,但将其公开并让每个人都能访问则是另一回事。”普里斯说,“这种微妙的区别可能是这项技术被使用或不被使用的决定因素。”
通过NVIDIA Nemotron和NIM微服务部署主权AI模型
用于开发威尔士UK-LLM模型的框架可以作为全球多语言AI开发的基础。
NVIDIA Nemotron提供的基准领先模型、数据和配方对开发者公开,以便构建几乎适用于任何语言、领域和工作流程的推理模型。作为NVIDIA NIM微服务打包的Nemotron模型针对成本效益计算进行了优化,可在任何地方运行,从笔记本电脑到云端。
欧洲的企业将能够在Perplexity AI支持的搜索引擎上运行这些开放的主权模型。
扩展至英国以外:UK-LLM为英国语言带来人工智能理解力
经过Isambard-AI超级计算机培训,由伦敦大学学院、NVIDIA和班戈大学开发的新模型利用NVIDIA Nemotron技术和开源数据集,为威尔士语和其他英国语言提供人工智能推理能力,应用于公共服务,包括医疗保健、教育和法律资源。
凯尔特语——包括康沃尔语、布列塔尼语、苏格兰盖尔语和威尔士语——是英国最古老的活语言。为了支持其使用者,UK-LLM人工智能主权项目正在基于NVIDIA Nemotron构建能够用英语和威尔士语进行推理的人工智能模型,后者目前有大约85万名使用者。
实现高水平的威尔士语人工智能推理能力将支持以威尔士语提供的公共服务,包括医疗保健、教育和法律资源。
“我希望英国每个角落都能利用人工智能理解力的优势。通过使人工智能能够用威尔士语进行推理,我们确保了从医疗服务到教育的公共服务对所有人都友好,且以他们的母语提供。”英国首相基尔·斯塔默表示,“这是现代技术如何服务于公共利益、保护文化多样性和创造全国机会的一个真实例子。”
2023年成立的UK-LLM项目(原名BritLLM)由伦敦大学学院领导,已提前发布了两个英国语言模型。其新威尔士语模型由班戈大学威尔士分校和NVIDIA合作开发,与威尔士政府促进威尔士语实际使用的努力相辅相成,目标是在2050年前实现一百万使用者——这一计划被称为“威尔士语2050”。
英国人工智能联合体提供商Nscale将确保新模型通过其编程接口(API)对开发者可用。
“我们的目标是确保威尔士语继续作为一种活跃的语言存在,具有适应性和持续发展的能力。”班戈大学贝德维中心语言技术部门主任兼高级术语学家格鲁夫德·普里斯说,“人工智能展示了巨大的潜力,可以帮助威尔士语作为第二语言的学习,同时也使本地使用者能够提高他们的语言技能。”
这个新模型还可能通过使在威尔士运营的公共机构和企业能够翻译内容或提供双语电话服务,来提高威尔士资源的可见度。这将有助于包括医疗保健提供者、教师、出版商、评论员和食品标签人员在内的群体,确保他们的书面内容同样易于获得威尔士语版本。
英国人工智能团队希望将用于开发其新模型的方法应用于其他在英国广泛使用的语言,如康沃尔语、威尔士语、苏格兰盖尔语和爱尔兰盖尔语,同时也与国际合作伙伴合作,为非洲和南亚的语言构建模型。“与英伟达和班戈大学的合作使我们能够创建新的训练数据并以前所未有的速度训练新模型,实现了我们一直以来的目标——为威尔士语开发出最优秀的语言模型。”伦敦大学学院自然语言处理教授兼人工智能中心副主任庞图斯·斯泰内托普表示,“我们的目标是将从威尔士语模型中获得的见解应用于其他少数语言,在英国乃至全球范围内。”
该威尔士语模型基于英伟达Nemotron,这是一系列开源模型,包含权重、数据集和开放资源。英国语言模型开发团队测试了490亿参数的Llama Nemotron Super模型和90亿参数的Nemotron Nano模型,并对其进行了威尔士语的数据训练。与英语或西班牙语等语言相比,可用于威尔士语的人工智能训练数据较少。因此,为了创建足够大的威尔士语训练数据集,团队利用了英伟达NIM微服务来翻译超过3000万条记录的英伟达开源数据集,从英语翻译成威尔士语。
他们通过英伟达DGX Cloud Lepton平台使用GPU集群,并利用数以千计的英伟达GH200 Grace Hopper超级芯片在Isambard-AI上加速其翻译和训练工作量。Isambard-AI是英国最强大的超级计算机,位于布里斯托尔大学,获得了政府2.25亿英镑的投资支持。这个新的数据集补充了团队之前的努力,进一步丰富了威尔士语的现有数据。
班戈大学,位于威尔士语使用者比例最高的郡——格温内思郡,以其语言学和文化专长支持新模型的开发。该校威尔士语中心的普里斯及其团队拥有近20年的威尔士语技术经验,帮助验证由机器翻译和人工翻译的数据集的准确性,评估模型如何处理通常对人工智能来说具有挑战性的威尔士语特征,例如词首变化。
预计该模型及其威尔士语训练和评估数据集将向私营部门和公共部门开放使用,支持进一步的研究、模型训练和项目开发。“拥有这项人工智能能力是重要的一步,但将其开放并让每个人都能使用则是另一回事。”普里斯说,“这一区别可能决定这项技术能否被利用。”
用于开发威尔士语DU-LLM模型的框架可以作为全球多语言人工智能开发的基础。英伟达Nemotron提供的模型、数据和资源达到了行业领先水平,面向开发者公开,以便他们构建针对任何语言、领域和工作流程定制的推理模型。这些经过优化的Nemotron模型以英伟达NIM微服务的形式提供,可在任何地方运行,从云端到边缘设备。欧洲研究人员将能够运行在Perplexity搜索引擎上经过人工智能优化的开放、主权模型。欢迎开始使用英伟达Nemotron。
(以上内容均由Ai生成)