AITRICS 在 ICASSP 2025 上展示语音 AI 突破 并获得双论文录取
快速阅读: 《韩国生物医学评论》消息,韩国医疗AI公司艾特瑞克斯两篇论文被ICASSP接收,提出稳定说话人自适应TTS框架和基于面部图像的零样本语音合成方法,提升语音生成自然度与稳定性,助力医疗AI服务。
韩国医疗AI公司艾特瑞克斯(AITRICS)于周二宣布,其两篇论文已被接收,将在印度海得拉巴举行的2025年国际语音、声学和信号处理会议(ICASSP)上发表。作为全球最大的语音、声学和信号处理会议之一,本次大会将于4月6日至11日举办。
被接收的论文包括《通过韵律提示实现稳定的说话人自适应文本到语音合成(Stable-TTS)》和《Face-StyleSpeech:通过改进的面部到语音映射增强基于面部图像的零样本语音合成》。艾特瑞克斯在两次海报展示环节中展示了其领先的语音AI技术。
第一篇论文提出了一种说话人自适应TTS(Stable-TTS)框架,只需少量语音数据即可自然重现特定说话人的语音风格与语调。该模型解决了现有说话人自适应语音合成模型中声音质量不稳定的问题,同时在有限且嘈杂的环境中仍能稳定合成语音。(由艾特瑞克斯提供)
说话人自适应模型通过高质量语音样本预训练、韵律语言模型(PLM)及先验保持学习确保了稳定性,生成的语音更加自然且稳定,即便在低质量或有限的语音样本下同样有效。此外,艾特瑞克斯还开发了一种零样本TTS模型,仅凭面部图像即可生成自然语音。该模型从面部图像中提取说话人特征,并结合韵律代码生成更逼真的语音。相比现有基于面部的语音合成模型,它能够更精确地映射面部信息与语音风格,显著提升语音自然度。
“这一研究表明,在数据有限的情况下,依然可以实现自然且稳定的语音生成,”艾特瑞克斯生成式AI工程师韩宇硕表示,“这在实际医疗环境中数据稀缺时将极具实用性。”
“我们相信,这项研究是迈向多模态LLM(大型语言模型)的重要一步,这些模型将整合语音和图像,而不仅仅是基于文本的LLM。我们将继续通过研究与开发,致力于为用户提供可靠且友好的医疗AI服务,”韩宇硕补充道。
(以上内容均由Ai生成)