AI-DimSum平台上线,推动粤语数字化
快速阅读: 12月7日消息,广州大学发布AI-DimSum粤语语料库平台,汇聚超百万字文本、3000小时语音及1TB音视频资源,构建多模态数据生态,助力粤语数字化与大模型研发。
12月6日至7日,第十届语言服务高级论坛暨2025年度国家应急语言服务团学术年会在广州大学举行。会上,该校哲学社会科学重点实验室正式发布AI-DimSum粤语语料库平台,标志着粤语数字化建设迈出关键一步。
粤语作为汉语重要方言,全球使用人口超亿,却长期面临互联网领域资源匮乏的困境。针对这一问题,广州大学网络空间安全学院教授齐佳音介绍,该平台紧扣“数字中文建设”与粤港澳大湾区文化数字化需求,聚焦岭南文化特色,构建面向人工智能应用的多模态粤语语料数据生态系统。其建设遵循“标准先行、数据可溯、服务可用”原则,为粤语研究与学习提供坚实支撑。
该平台涵盖语料采集、标注、模型对接、确权检索、质量评估、管理及应用商店等七个子系统,形成完整数据处理链条,实现从采集到应用的高效协同。目前,AI-DimSum已汇聚超100万字文本数据,覆盖新闻、文学及社交媒体等领域;完成3000小时高保真语音标注,并整合逾1TB音视频资料,包括《功夫熊猫》《小猪佩奇》等热门作品的粤语字幕版本。此外,平台还收录超1万句生活场景语料、1万张岭南文化图像素材。
值得一提的是,该体系已建成包含6669条权威词条和3万条扩展词条的粤语安全语料库,并开发超20万道多模态内容安全评测题。这些成果不仅丰富了粤语数字资源,也为未来粤语大模型研发奠定基础。
(以上内容均由Ai生成)