Step-Audio-EditX发布:30亿参数音频LLM开启语音编辑新时代

发布时间:2025年11月10日    来源:szf
Step-Audio-EditX发布:30亿参数音频LLM开启语音编辑新时代

快速阅读: StepFun AI 发布 Step-Audio-EditX 开源项目,基于30亿参数音频语言模型,实现语音编辑如文本般直观,提升情感、风格及副语言编辑精度,大幅降低开发门槛。

在文本生成与图像生成已被大模型彻底重塑的时代,语音编辑依然是最难以“像写文本那样”直观操作的领域。近日,StepFun AI 发布的全新开源项目 Step-Audio-EditX 正在改变这一现状。该项目基于一个30亿参数的音频语言模型(Audio LLM),首次将语音编辑转化为类似文本标记级别的可控操作,而非传统的波形信号处理任务。

根据团队在论文 arXiv:2511.03601 中的介绍,Step-Audio-EditX 的目标是让开发者能够“像改一句文本那样,直接编辑语音的情感、语调、风格甚至呼吸声”。

从“模仿声音”到“精准控制”。目前大多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色,虽然听起来自然,但缺乏控制力。文本中的风格提示往往被忽略,尤其是在跨语言、跨风格的任务中效果不稳定。Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构,而是通过改变数据结构与训练目标来实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习,从而掌握了如何在文本不变的前提下调整情感、风格与副语言信号。

Step-Audio-EditX 采用了双码本分词器(Dual Codebook Tokenizer):语言流采样率为16.7Hz,包含1024个标记;语义流采样率为25Hz,包含4096个标记;两者以2:3的比例交错排列,保留了语音中的韵律与情感特征。在此基础上,研究团队构建了一个30亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化,并在混合语料库上训练(文本与音频标记比例1:1)。它可以读取文本或音频标记,并始终输出双码本标记序列。

音频重建由独立解码器完成:扩散变换器流匹配模块预测梅尔频谱图,BigVGANv2声码器将其转为波形。整个模块在20万小时高质量语音上训练,显著提升了音色与韵律的自然度。

Step-Audio-EditX 的关键创新在于“大间隔学习”(Large Margin Learning)。模型在保持文本不变的前提下,通过三元组和四元组样本训练,学习在“差异明显”的语音属性之间转换。团队使用了涵盖中、英、粤语和四川话的6万名说话人的数据集,并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制10秒片段,StepTTS 系统生成中性和情感版本,再由人工与模型双重评分筛选出质量最高的样本。

副语言(如笑声、呼吸、填充停顿)编辑基于 NVSpeech 数据集,通过克隆和标注去除实现时域监督,无需额外边距模型。

训练分为两个阶段:监督微调(SFT):模型在统一的聊天格式中同时学习 TTS 和编辑任务;强化学习(PPO):通过奖励模型优化对自然语言指令的响应。奖励模型基于 SFT 检查点初始化,使用 Bradley-Terry 损失在大间隔偏好对上训练,直接在标记级别计算奖励,无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。

为了量化控制能力,团队提出了 Step-Audio-Edit-Test 基准,采用 Gemini2.5Pro 作为评审模型,从情感、风格、副语言三个维度评估。结果显示,中文情感准确率从57.0%提升至77.7%,风格准确率从41.6%提升至69.2%,英文结果表现类似。副语言编辑平均得分也从1.91升至2.89,接近主流商业系统的水平。更令人惊讶的是,Step-Audio-EditX 对闭源系统如 GPT-4o mini TTS、ElevenLabs v2、豆包种子 TTS2.0等均有显著提升。

Step-Audio-EditX 代表了可控语音合成的一次真正飞跃。它放弃了传统的波形级信号操作,以离散标记为基础,结合大间隔学习与强化优化,使得语音编辑的体验首次接近文本编辑的流畅度。在技术和开放性方面,StepFun AI 选择了全堆栈开源(包括模型权重与训练代码),极大地降低了语音编辑研究的门槛。这意味着未来的开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征。

项目地址:https://stepaudiollm.github.io/step-audio-editx/

论文:https://arxiv.org/pdf/2511.03601

GitHub:https://github.com/stepfun-ai/Step-Audio-EditX

在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

(以上内容均由Ai生成)

你可能还想读

迪拜启用智能无人机监测植物健康与农田状况

迪拜启用智能无人机监测植物健康与农田状况

快速阅读: 迪拜市政府与Eanan合作,派遣名为Gaith的农业无人机监测植物健康,通过AI分析图像识别问题区域,并提供精准施肥等治疗。项目处于试点阶段,未来将扩展至更多领域。 迪拜市政府正派遣无人机升空,以监测酋长国树木、植物、绿地及农业 […]

发布时间:2025年11月10日
Volatus Aerospace获2460万融资,拓展无人机技术

Volatus Aerospace获2460万融资,拓展无人机技术

快速阅读: Volatus Aerospace Inc.宣布466万加元融资计划,支持无人机技术研发及国防领域收购,增强制造能力,最新分析师评级为持有,目标价0.50加元。 了解您的ETF AI分析师 发现TipRanks的ETF AI分析 […]

发布时间:2025年11月10日
美团发布AI编程IDE CatPaw,公测开启提升开发效率

美团发布AI编程IDE CatPaw,公测开启提升开发效率

快速阅读: 美团推出首款AI IDE Meituan CatPaw进入公测,支持Ask和Agent双模式,提供实时编码提示及项目调试功能,旨在提高编程效率和便捷性。 美团宣布其首款AI集成开发环境(IDE)产品Meituan CatPaw正 […]

发布时间:2025年11月10日
小度推出AI眼镜Pro,售价2299元,支持4K拍照与AI翻译

小度推出AI眼镜Pro,售价2299元,支持4K拍照与AI翻译

快速阅读: 小度 AI 眼镜 Pro 上市,售价2299元,支持4K拍摄和14种语言翻译,内置3000mAh眼镜盒,续航68小时,采用五麦克风阵列设计。 百度旗下小度 AI 眼镜 Pro 正式上市,售价为2299元。此款智能眼镜提供波士顿和 […]

发布时间:2025年11月10日
腾讯云下线旧版大模型,推荐用户及时迁移

腾讯云下线旧版大模型,推荐用户及时迁移

快速阅读: 腾讯云宣布2025年11月24日起下线DeepSeek-V3和DeepSeek-R1旧模型,建议用户迁移至最新版本,未迁移者将自动升级,确保服务连续。 11月10日,腾讯云官网发布重要公告,宣布将对旗下部分旧版本的大模型进行下线 […]

发布时间:2025年11月10日
Grok支持纯文本生成视频了 一句话即可生成带音效视频

Grok支持纯文本生成视频了 一句话即可生成带音效视频

快速阅读: xAI推出Grok Imagine,支持纯文本快速生成短视频,平均17秒内完成,兼容多平台,提供多种风格和创意模式,被誉为“最像人类协作的AI视频工具”。 AI视频生成领域再掀波澜。xAI旗下的AI助手Grok今日宣布重磅升级— […]

发布时间:2025年11月10日
研究揭示 AI 生成社交媒体内容易被识别,情感表达仍待提升

研究揭示 AI 生成社交媒体内容易被识别,情感表达仍待提升

快速阅读: 研究显示,AI生成的社交媒体内容易被人类识别,准确率达70%-80%。大语言模型在情感表达上逊色,尤其在Reddit上表现不佳,未微调模型表现更佳。 近日,来自苏黎世大学、阿姆斯特丹大学、杜克大学和纽约大学的研究团队发布了一项 […]

发布时间:2025年11月10日
腾讯云DeepSeek旧版模型将下线,自动升级至新版本

腾讯云DeepSeek旧版模型将下线,自动升级至新版本

快速阅读: 腾讯云宣布,因大模型升级,DeepSeek-V3 和 DeepSeek-R1 将于2025年11月24日停服,建议用户提前迁移至新版本,避免影响服务。 11 月 10 日,IT之家报道,腾讯云在其官网上宣布,随着腾讯云大模型的升 […]

发布时间:2025年11月10日