这种开放式文本转语音模型只需要几秒钟的音频即可克隆您的声音

发布时间：2025年2月17日来源：szf

快速阅读: 据《The Register》称，每个模型拥有16亿参数，基于超过20万小时的语音数据训练，包括中性和富有表现力的语音。Zonos的发布说明显示，大部分数据为英文，也包含大量中文、日文、法文、西班牙文和德文。Zyphra表示，这些数据来自网络，而非数据经纪公司。这些多语言数据使模型能掌握不同风格，实现更自然的人类语音模仿，在多种应用中表现出色。

每个模型的参数量达到十六亿，这些模型是在超过二十万小时的语音数据上训练的，其中包括像有声书朗读这样的中性语调语音，以及“极具表现力”的语音。根据Zonos的发布说明，其中大部分数据是英文的，但也包含“大量”的中文、日文、法文、西班牙文和德文。Zyphra告诉The Register记者，这些数据是从网络上获取的，并不是从数据经纪公司获得的。

这些数据涵盖了各种语言，为模型提供了广泛的学习基础。在训练过程中，模型不仅掌握了中性的有声书朗读风格，还学会了如何表达丰富的情感。这使得模型能够更加自然地模仿人类的语音，从而在多种应用场景中展现出色的表现力。

(以上内容均由Ai生成)