开源项目发布“Step-Audio 2 mini”,语音更清晰自然
快速阅读: 阶跃星辰推出Step-Audio2mini开源语音模型,多项国际测试中取得SOTA成绩,具备多模态音频理解、跨语言翻译和情感解析能力,支持音频知识增强,已在GitHub等平台上线。
近日,阶跃星辰正式推出最新开源端到端语音大模型——Step-Audio2mini。这款模型在多个国际基准测试中表现出色,取得SOTA(最先进技术)成绩,备受关注。Step-Audio2mini不仅在语音理解和音频生成方面能力出众,还首次将音频推理和生成统一建模,为语音识别、跨语言翻译和情感解析等多种应用场景提供出色解决方案。
Step-Audio2mini具备卓越的多模态音频理解能力,在MMAU(多模态音频理解测试集)上以73.2分的成绩稳居开源语音模型榜首。在口语对话能力的URO Bench测试中,无论基础赛道还是专业赛道,Step-Audio2mini均取得开源模型中的最高分,展现其出色的对话理解与表达能力。
在中英互译任务中,Step-Audio2mini同样表现不俗,在CoVoST2和CVSS评测集上分别获得39.3和29.1的高分,明显超越GPT-4o Audio和其他开源语音模型。此外,该模型在语音识别方面也出类拔萃,在开源中文测试集上的字错误率为3.19,在开源英语测试集上的词错误率为3.50,领先其他开源模型超过15%。
Step-Audio2mini的成功得益于其创新的架构设计。该模型打破传统的ASR(自动语音识别)、LLM(大语言模型)和TTS(文本转语音)三级结构,实现从原始音频输入到语音响应输出的直接转换,简化架构,降低延迟。此外,模型引入链式思维推理(CoT)与强化学习的联合优化技术,更好地理解情绪、语调等副语言信息,并自然地作出反应。
值得一提的是,Step-Audio2mini支持音频知识增强功能,能够利用外部工具进行联网搜索,解决传统模型中的幻觉问题。这一创新不仅提升模型的实用性,还扩展其在多种场景中的应用潜力。
目前,Step-Audio2mini已在GitHub、Hugging Face等平台上线,欢迎开发者试用和贡献代码。
(以上内容均由Ai生成)