开源项目发布“Step-Audio 2 mini”，语音更清晰自然

发布时间：2025年9月1日来源：szf

快速阅读: 阶跃星辰推出Step-Audio2mini开源语音模型，多项国际测试中取得SOTA成绩，具备多模态音频理解、跨语言翻译和情感解析能力，支持音频知识增强，已在GitHub等平台上线。

近日，阶跃星辰正式推出最新开源端到端语音大模型——Step-Audio2mini。这款模型在多个国际基准测试中表现出色，取得SOTA（最先进技术）成绩，备受关注。Step-Audio2mini不仅在语音理解和音频生成方面能力出众，还首次将音频推理和生成统一建模，为语音识别、跨语言翻译和情感解析等多种应用场景提供出色解决方案。

Step-Audio2mini具备卓越的多模态音频理解能力，在MMAU（多模态音频理解测试集）上以73.2分的成绩稳居开源语音模型榜首。在口语对话能力的URO Bench测试中，无论基础赛道还是专业赛道，Step-Audio2mini均取得开源模型中的最高分，展现其出色的对话理解与表达能力。

在中英互译任务中，Step-Audio2mini同样表现不俗，在CoVoST2和CVSS评测集上分别获得39.3和29.1的高分，明显超越GPT-4o Audio和其他开源语音模型。此外，该模型在语音识别方面也出类拔萃，在开源中文测试集上的字错误率为3.19，在开源英语测试集上的词错误率为3.50，领先其他开源模型超过15%。

Step-Audio2mini的成功得益于其创新的架构设计。该模型打破传统的ASR（自动语音识别）、LLM（大语言模型）和TTS（文本转语音）三级结构，实现从原始音频输入到语音响应输出的直接转换，简化架构，降低延迟。此外，模型引入链式思维推理（CoT）与强化学习的联合优化技术，更好地理解情绪、语调等副语言信息，并自然地作出反应。

值得一提的是，Step-Audio2mini支持音频知识增强功能，能够利用外部工具进行联网搜索，解决传统模型中的幻觉问题。这一创新不仅提升模型的实用性，还扩展其在多种场景中的应用潜力。

目前，Step-Audio2mini已在GitHub、Hugging Face等平台上线，欢迎开发者试用和贡献代码。

(以上内容均由Ai生成)