Step-Audio-EditX发布:30亿参数音频LLM开启语音编辑新时代

发布时间:2025年11月10日    来源:szf
Step-Audio-EditX发布:30亿参数音频LLM开启语音编辑新时代

快速阅读: StepFun AI 发布 Step-Audio-EditX 开源项目,基于30亿参数音频语言模型,实现语音编辑如文本般直观,提升情感、风格及副语言编辑精度,大幅降低开发门槛。

在文本生成与图像生成已被大模型彻底重塑的时代,语音编辑依然是最难以“像写文本那样”直观操作的领域。近日,StepFun AI 发布的全新开源项目 Step-Audio-EditX 正在改变这一现状。该项目基于一个30亿参数的音频语言模型(Audio LLM),首次将语音编辑转化为类似文本标记级别的可控操作,而非传统的波形信号处理任务。

根据团队在论文 arXiv:2511.03601 中的介绍,Step-Audio-EditX 的目标是让开发者能够“像改一句文本那样,直接编辑语音的情感、语调、风格甚至呼吸声”。

从“模仿声音”到“精准控制”。目前大多数零样本 TTS 系统仅能从短参考音频中复制情感、口音和音色,虽然听起来自然,但缺乏控制力。文本中的风格提示往往被忽略,尤其是在跨语言、跨风格的任务中效果不稳定。Step-Audio-EditX 选择了完全不同的路径——不再依赖复杂的解耦编码器结构,而是通过改变数据结构与训练目标来实现可控性。模型通过大量文本相同、属性差异显著的语音对和语音三元组进行学习,从而掌握了如何在文本不变的前提下调整情感、风格与副语言信号。

Step-Audio-EditX 采用了双码本分词器(Dual Codebook Tokenizer):语言流采样率为16.7Hz,包含1024个标记;语义流采样率为25Hz,包含4096个标记;两者以2:3的比例交错排列,保留了语音中的韵律与情感特征。在此基础上,研究团队构建了一个30亿参数的紧凑型音频 LLM。模型使用文本 LLM 初始化,并在混合语料库上训练(文本与音频标记比例1:1)。它可以读取文本或音频标记,并始终输出双码本标记序列。

音频重建由独立解码器完成:扩散变换器流匹配模块预测梅尔频谱图,BigVGANv2声码器将其转为波形。整个模块在20万小时高质量语音上训练,显著提升了音色与韵律的自然度。

Step-Audio-EditX 的关键创新在于“大间隔学习”(Large Margin Learning)。模型在保持文本不变的前提下,通过三元组和四元组样本训练,学习在“差异明显”的语音属性之间转换。团队使用了涵盖中、英、粤语和四川话的6万名说话人的数据集,并构建了合成三元组以强化情感与风格控制。每组样本由人工配音演员录制10秒片段,StepTTS 系统生成中性和情感版本,再由人工与模型双重评分筛选出质量最高的样本。

副语言(如笑声、呼吸、填充停顿)编辑基于 NVSpeech 数据集,通过克隆和标注去除实现时域监督,无需额外边距模型。

训练分为两个阶段:监督微调(SFT):模型在统一的聊天格式中同时学习 TTS 和编辑任务;强化学习(PPO):通过奖励模型优化对自然语言指令的响应。奖励模型基于 SFT 检查点初始化,使用 Bradley-Terry 损失在大间隔偏好对上训练,直接在标记级别计算奖励,无需解码波形。PPO 再结合 KL 惩罚项平衡音质与偏差。

为了量化控制能力,团队提出了 Step-Audio-Edit-Test 基准,采用 Gemini2.5Pro 作为评审模型,从情感、风格、副语言三个维度评估。结果显示,中文情感准确率从57.0%提升至77.7%,风格准确率从41.6%提升至69.2%,英文结果表现类似。副语言编辑平均得分也从1.91升至2.89,接近主流商业系统的水平。更令人惊讶的是,Step-Audio-EditX 对闭源系统如 GPT-4o mini TTS、ElevenLabs v2、豆包种子 TTS2.0等均有显著提升。

Step-Audio-EditX 代表了可控语音合成的一次真正飞跃。它放弃了传统的波形级信号操作,以离散标记为基础,结合大间隔学习与强化优化,使得语音编辑的体验首次接近文本编辑的流畅度。在技术和开放性方面,StepFun AI 选择了全堆栈开源(包括模型权重与训练代码),极大地降低了语音编辑研究的门槛。这意味着未来的开发者可以像修改文字一样,精准控制语音的情绪、语气与副语言特征。

项目地址:https://stepaudiollm.github.io/step-audio-editx/

论文:https://arxiv.org/pdf/2511.03601

GitHub:https://github.com/stepfun-ai/Step-Audio-EditX

在线体验:https://huggingface.co/spaces/stepfun-ai/Step-Audio-EditX

(以上内容均由Ai生成)

你可能还想读

百度AI技术引领新潮流,股价年内大涨超53%

百度AI技术引领新潮流,股价年内大涨超53%

快速阅读: 百度股价今年上涨53%,得益于AI技术和自动驾驶出租车发展。公司推出Nova数字人直播技术,增强推理能力,展现未来潜力。 百度(NASDAQ:BIDU)是另一颗快速崛起的人工智能新星,今年以来股价上涨超过53%,主要得益于人工智 […]

发布时间:2025年11月10日
英国AI监管不足,民众权利难保障

英国AI监管不足,民众权利难保障

快速阅读: 证人讨论英国AI监管需制定行业规则,强调公众参与和“共同创造”。大卫·莱斯利呼吁赋权公众,奈克指出法律救济机制缺失,建议扩大法律援助。 证人还详细讨论了英国有效AI监管所需的具体措施,这包括制定针对特定行业的规则,以应对技术在高 […]

发布时间:2025年11月10日
AI数据中心网络重要性超越计算力

AI数据中心网络重要性超越计算力

快速阅读: 人工智能热潮推动计算能力需求激增,企业需投资数亿美元建设数据中心。网络性能成关键,以太网和InfiniBand主导市场,未来将以太网为主。AI从训练转向推理,需平衡计算与数据传输能力。 人工智能热潮正在推动对计算能力的高需求,这 […]

发布时间:2025年11月10日
OpenAI考虑开发健康助手,拓展AI业务范围

OpenAI考虑开发健康助手,拓展AI业务范围

快速阅读: OpenAI考虑开发基于AI的个人健康助手,拓展核心业务。此前,谷歌、亚马逊和微软的类似尝试因用户参与度低而失败。OpenAI已聘请医疗和科技行业资深人士领导该项目。 据《商业内幕》周一报道,OpenAI 正考虑开发消费者健康产 […]

发布时间:2025年11月10日
企业IT改革:构建面向代理AI时代的架构

企业IT改革:构建面向代理AI时代的架构

快速阅读: Ritu Jyoti现任隐形AI初创公司CEO,曾任职IDC AI与数据部门总经理/副总裁,获James Peacock Memorial奖,拥有25年高科技行业经验,致力于AI责任发展与创新。 Ritu Jyoti 目前担任一 […]

发布时间:2025年11月10日
苹果与谷歌合作升级Siri,打造健康AI聊天机器人

苹果与谷歌合作升级Siri,打造健康AI聊天机器人

快速阅读: 苹果与谷歌合作开发1.2万亿参数的Gemini AI模型,用于提升Siri体验,年费约10亿美元。苹果内部称此模型为AFM v10,避免公开合作以防混淆,同时正自主研发1.0万亿参数模型。 据古尔曼先前的报道,苹果与谷歌合作,后 […]

发布时间:2025年11月10日
富士康计划六个月内部署人形机器人生产Nvidia服务器

富士康计划六个月内部署人形机器人生产Nvidia服务器

快速阅读: 富士康计划未来六个月内使用人形机器人生产英伟达服务器,首次尝试提高生产效率。此举将在休斯顿智能工厂展开,可能面临技术与安全挑战。 制造巨头富士康表示,计划在未来六个月内使用人形机器人生产英伟达的服务器,据富士康董事长刘扬伟透露。 […]

发布时间:2025年11月10日
苹果与谷歌合作秘密升级Siri,将推健康AI聊天机器人

苹果与谷歌合作秘密升级Siri,将推健康AI聊天机器人

快速阅读: 苹果与谷歌合作开发定制版Gemini模型,用于新版Siri,年费约10亿美元。苹果内部称此为AFM v10,避免公开合作以防混淆,强调与苹果系统的共通性。苹果正研发自有1.0万亿参数模型,预计明年就绪,但不用于春季新版Siri。 […]

发布时间:2025年11月10日