字节跳动发布高精度同传模型 Seed LiveInterpret 2.0
快速阅读: 据相关媒体最新报道,7月24日,字节跳动发布Seed LiveInterpret 2.0,首个接近人类水平的中英同传系统。支持实时多人翻译、零样本音色复刻,准确率超70%,延迟低至2-3秒。
7月24日,字节跳动Seed团队正式发布了端到端同声传译模型Seed LiveInterpret 2.0,这是首个在延迟与准确率上接近人类水平的产品级中英语音同传系统。
该系统基于全双工端到端语音生成理解框架,支持中英互译,能够实时处理多人语音输入,像人类同传译员一样实现“边听边说”。同时,Seed LiveInterpret 2.0还支持零样本声音复刻,使得沟通更加流畅自然。
在测试中,Seed LiveInterpret 2.0面对40秒的大段中文表达,能够低延迟地输出相同音色的英语翻译,并且能够快速学习音色。与传统机器同传系统相比,Seed LiveInterpret 2.0具有以下优势:
1. 接近真人同传的翻译准确率。在多人会议等复杂场景中,中英双向翻译准确率超过70%,单人演讲翻译准确率超过80%。
2. 极低延迟的“边听边说”能力。翻译延迟可低至2-3秒,较传统系统降低超过60%。
3. 零样本声音复刻,音色真实自然。仅需采样实时语音信号,即可提取声音特征,用说话人的音色特质实时“说出”外语。
4. 智能平衡翻译质量、延迟和语音输出节奏。根据语音清晰度、流畅度和复杂程度,调整输出节奏,适应不同语言特性,确保超长信息时传译语音的自然流畅。
目前,Seed LiveInterpret 2.0的技术报告已公开,模型基于火山引擎对外开放。此外,Ola Friend耳机预计将于8月底接入Seed LiveInterpret 2.0,成为首个支持该模型的智能硬件设备。
(以上内容均由AI生成)