Step-Audio-EditX发布:30亿参数音频LLM开启语音编辑新时代
快速阅读: StepFun AI 发布 Step-Audio-EditX 开源项目,基于30亿参数音频语言模型,实现语音编辑如文本般直观,提升情感、风格及副语言编辑精度,大幅降低开发门槛。
在文本生成与图像生成已被大模型彻底重塑的时代,语音编辑依然是最难以“像写文本那样”直观操作的领域。近日,StepFun AI 发布的全新开源项目 Step-Audio-EditX 正在改变这一现状。该项目基于一个30亿参数的音频语言模型(Audio LLM),首次将语音编辑转化为类似文本标记级别的可控操作,而非传统的波形信号处理任务。
根据团队在论文 arXiv:2511.03601 中的介绍,Step-Audio-EditX 的目标是让开发者能够“像改一句文本那样,直接编辑语音的情感、语调、风格甚至呼吸声”。
从“模仿声音”到“精准控制”。目前大多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色,虽然听起来自然,但缺乏控制力。文本中的风格提示往往被忽略,尤其是在跨语言、跨风格的任务中效果不稳定。Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构,而是通过改变数据结构与训练目标来实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习,从而掌握了如何在文本不变的前提下调整情感、风格与副语言信号。
Step-Audio-EditX 采用了双码本分词器(Dual Codebook Tokenizer):语言流采样率为16.7Hz,包含1024个标记;语义流采样率为25Hz,包含4096个标记;两者以2:3的比例交错排列,保留了语音中的韵律与情感特征。在此基础上,研究团队构建了一个30亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化,并在混合语料库上训练(文本与音频标记比例1:1)。它可以读取文本或音频标记,并始终输出双码本标记序列。
音频重建由独立解码器完成:扩散变换器流匹配模块预测梅尔频谱图,BigVGANv2声码器将其转为波形。整个模块在20万小时高质量语音上训练,显著提升了音色与韵律的自然度。
Step-Audio-EditX 的关键创新在于“大间隔学习”(Large Margin Learning)。模型在保持文本不变的前提下,通过三元组和四元组样本训练,学习在“差异明显”的语音属性之间转换。团队使用了涵盖中、英、粤语和四川话的6万名说话人的数据集,并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制10秒片段,StepTTS 系统生成中性和情感版本,再由人工与模型双重评分筛选出质量最高的样本。
副语言(如笑声、呼吸、填充停顿)编辑基于 NVSpeech 数据集,通过克隆和标注去除实现时域监督,无需额外边距模型。
训练分为两个阶段:监督微调(SFT):模型在统一的聊天格式中同时学习 TTS 和编辑任务;强化学习(PPO):通过奖励模型优化对自然语言指令的响应。奖励模型基于 SFT 检查点初始化,使用 Bradley-Terry 损失在大间隔偏好对上训练,直接在标记级别计算奖励,无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。
为了量化控制能力,团队提出了 Step-Audio-Edit-Test 基准,采用 Gemini2.5Pro 作为评审模型,从情感、风格、副语言三个维度评估。结果显示,中文情感准确率从57.0%提升至77.7%,风格准确率从41.6%提升至69.2%,英文结果表现类似。副语言编辑平均得分也从1.91升至2.89,接近主流商业系统的水平。更令人惊讶的是,Step-Audio-EditX 对闭源系统如 GPT-4o mini TTS、ElevenLabs v2、豆包种子 TTS2.0等均有显著提升。
Step-Audio-EditX 代表了可控语音合成的一次真正飞跃。它放弃了传统的波形级信号操作,以离散标记为基础,结合大间隔学习与强化优化,使得语音编辑的体验首次接近文本编辑的流畅度。在技术和开放性方面,StepFun AI 选择了全堆栈开源(包括模型权重与训练代码),极大地降低了语音编辑研究的门槛。这意味着未来的开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征。
项目地址:https://stepaudiollm.github.io/step-audio-editx/
论文:https://arxiv.org/pdf/2511.03601
GitHub:https://github.com/stepfun-ai/Step-Audio-EditX
在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX
(以上内容均由Ai生成)