StepFun AI 推出新模型，显著提升音频推理能力

发布时间：2025年12月1日来源：szf

快速阅读: StepFun AI 发布 Step-Audio-R1，解决音频推理准确度下降问题，采用模态化推理蒸馏技术，基于 Qwen2 架构，表现优于 Gemini2.5Pro，与 Gemini3Pro 持平。

近日，StepFun AI 团队发布了新型音频大语言模型 Step-Audio-R1。此模型在生成推理时能够高效利用计算资源，解决了现有音频 AI 模型在处理长时间推理链时准确度下降的问题。研究团队指出，这一问题并非音频模型本身的局限，而是因为训练过程中广泛采用了文本替代推理的方法所致。

目前多数音频模型在训练时主要依赖文本数据，这导致其推理过程更像是阅读文字而非真实聆听声音。StepFun 团队将这种现象称为“文本替代推理”。为解决这一问题，Step-Audio-R1 强调在生成答案时必须依据音频证据进行推理。这一目标是通过“模态化推理蒸馏”的训练方法实现的，该方法专门选择并提炼与音频特性相关的推理路径。

在架构设计上，Step-Audio-R1 以 Qwen2 音频编码器为基础，对原始音频信号进行处理，并通过音频适配器将输出频率降低至12.5Hz。随后，Qwen2.532B 解码器接收音频特征并生成文本。模型在生成答案的过程中，会在特定标签内构建明确的推理部分，从而确保推理的结构和内容得到优化，同时保证任务的准确性不受影响。

在训练过程中，模型先后经历了监督冷启动阶段和强化学习阶段，涉及文本和音频任务的结合。在冷启动阶段，团队使用了500万个样本，涵盖1亿个文本标记和40亿个音频配对数据。在这个阶段，模型学会了生成对音频和文本均有效的推理，初步建立了推理能力。

通过多轮“模态化推理蒸馏”，研究团队成功从音频问题中提取了真实的声学特征，并通过强化学习进一步提升了模型的推理能力。Step-Audio-R1 在多项音频理解和推理基准测试中表现优异，其综合评分接近行业领先者 Gemini3Pro 模型。

相关论文已发表，链接如下：https://arxiv.org/pdf/2511.15848

要点总结：

– StepFun AI 推出的 Step-Audio-R1 成功解决了音频推理中准确度下降的问题，采用模态化推理蒸馏技术。

– 该模型基于 Qwen2 架构，能够清晰地区分推理过程和最终答案，增强了音频处理效能。

– 在多个基准测试中，Step-Audio-R1 的表现超越了 Gemini2.5Pro，并与 Gemini3Pro 持平。

(以上内容均由Ai生成)