这种开放式文本转语音模型只需要几秒钟的音频即可克隆您的声音
快速阅读: 据《The Register》称,每个模型拥有16亿参数,基于超过20万小时的语音数据训练,包括中性和富有表现力的语音。Zonos的发布说明显示,大部分数据为英文,也包含大量中文、日文、法文、西班牙文和德文。Zyphra表示,这些数据来自网络,而非数据经纪公司。这些多语言数据使模型能掌握不同风格,实现更自然的人类语音模仿,在多种应用中表现出色。
每个模型的参数量达到十六亿,这些模型是在超过二十万小时的语音数据上训练的,其中包括像有声书朗读这样的中性语调语音,以及“极具表现力”的语音。根据Zonos的发布说明,其中大部分数据是英文的,但也包含“大量”的中文、日文、法文、西班牙文和德文。Zyphra告诉The Register记者,这些数据是从网络上获取的,并不是从数据经纪公司获得的。
这些数据涵盖了各种语言,为模型提供了广泛的学习基础。在训练过程中,模型不仅掌握了中性的有声书朗读风格,还学会了如何表达丰富的情感。这使得模型能够更加自然地模仿人类的语音,从而在多种应用场景中展现出色的表现力。
(以上内容均由Ai生成)