StepFun AI 推出新模型,显著提升音频推理能力
快速阅读: StepFun AI 发布 Step-Audio-R1,解决音频推理准确度下降问题,采用模态化推理蒸馏技术,基于 Qwen2 架构,表现优于 Gemini2.5Pro,与 Gemini3Pro 持平。
近日,StepFun AI 团队发布了新型音频大语言模型 Step-Audio-R1。此模型在生成推理时能够高效利用计算资源,解决了现有音频 AI 模型在处理长时间推理链时准确度下降的问题。研究团队指出,这一问题并非音频模型本身的局限,而是因为训练过程中广泛采用了文本替代推理的方法所致。
目前多数音频模型在训练时主要依赖文本数据,这导致其推理过程更像是阅读文字而非真实聆听声音。StepFun 团队将这种现象称为“文本替代推理”。为解决这一问题,Step-Audio-R1 强调在生成答案时必须依据音频证据进行推理。这一目标是通过“模态化推理蒸馏”的训练方法实现的,该方法专门选择并提炼与音频特性相关的推理路径。
在架构设计上,Step-Audio-R1 以 Qwen2 音频编码器为基础,对原始音频信号进行处理,并通过音频适配器将输出频率降低至12.5Hz。随后,Qwen2.532B 解码器接收音频特征并生成文本。模型在生成答案的过程中,会在特定标签内构建明确的推理部分,从而确保推理的结构和内容得到优化,同时保证任务的准确性不受影响。
在训练过程中,模型先后经历了监督冷启动阶段和强化学习阶段,涉及文本和音频任务的结合。在冷启动阶段,团队使用了500万个样本,涵盖1亿个文本标记和40亿个音频配对数据。在这个阶段,模型学会了生成对音频和文本均有效的推理,初步建立了推理能力。
通过多轮“模态化推理蒸馏”,研究团队成功从音频问题中提取了真实的声学特征,并通过强化学习进一步提升了模型的推理能力。Step-Audio-R1 在多项音频理解和推理基准测试中表现优异,其综合评分接近行业领先者 Gemini3Pro 模型。
相关论文已发表,链接如下:https://arxiv.org/pdf/2511.15848
要点总结:
– StepFun AI 推出的 Step-Audio-R1 成功解决了音频推理中准确度下降的问题,采用模态化推理蒸馏技术。
– 该模型基于 Qwen2 架构,能够清晰地区分推理过程和最终答案,增强了音频处理效能。
– 在多个基准测试中,Step-Audio-R1 的表现超越了 Gemini2.5Pro,并与 Gemini3Pro 持平。
(以上内容均由Ai生成)