StepFun AI 发布 Step-Audio-EditX,革新音频编辑体验

发布时间:2025年11月10日    来源:szf
StepFun AI 发布 Step-Audio-EditX,革新音频编辑体验

快速阅读: StepFun AI 发布 Step-Audio-EditX 模型,将音频编辑简化为文本编辑,采用大边距学习提升情感和风格编辑准确性,引入 Step-Audio-Edit-Test 基准显著提升音频质量评估。

近日,StepFun AI 发布了其开源的音频编辑模型 Step-Audio-EditX。这一创新的3B参数模型将音频编辑的操作变得像文本编辑一样直接和可控。通过将音频信号的编辑任务转化为逐字的令牌操作,Step-Audio-EditX 使得表达性的语音编辑更加简便。

目前,大多数零样本文本到语音(TTS)系统在情感、风格、口音和音色的控制上存在局限。尽管这些系统可以生成自然的语音,但往往无法精确满足用户需求。过去的研究尝试通过增加额外的编码器和复杂的架构来分离这些因素,而 Step-Audio-EditX 则通过调整数据和训练目标来实现更好的控制。

Step-Audio-EditX 采用了双代码本的标记器,将语音映射为两个令牌流:一个是以16.7Hz的速率记录的语言流,另一个是以25Hz的速率记录的语义流。模型在一个包含文本和音频令牌的混合语料库上进行了训练,从而能够同时处理文本和音频令牌。

该模型的关键在于采用大边距学习方法,在后续训练阶段利用合成的大边距三元组和四元组来增强表现。通过使用约6万名说话者的高质量数据,模型在情感和风格编辑方面表现出色。此外,模型还利用人类评分和偏好数据进行强化学习,以提高语音生成的自然性和准确性。

为了评估模型的效果,研究团队引入了 Step-Audio-Edit-Test 基准,使用 Gemini2.5Pro 作为评判工具。测试结果显示,经过多轮编辑,模型在情感和说话风格的准确性上都有显著提升。此外,Step-Audio-EditX 还能有效提升其他闭源 TTS 系统的音频质量,为音频编辑研究带来了新的可能性。

论文链接:https://arxiv.org/abs/2511.03601

划重点:

– 🎤 StepFun AI 推出 Step-Audio-EditX 模型,使音频编辑更简便。

– 📈 该模型采用大边距学习,提升情感和风格编辑的准确性。

– 🔍 引入 Step-Audio-Edit-Test 基准,显著提升音频质量评估。

(以上内容均由Ai生成)

你可能还想读

保险业探索自主AI:重塑理赔与承保的新机遇

保险业探索自主AI:重塑理赔与承保的新机遇

快速阅读: 《保险邮报》与Hyland联合网络研讨会上,保险业领袖探讨代理型AI重塑承保、理赔和欺诈检测的潜力与挑战,强调文化变革、人类监督及监管重要性。 在最近由《保险邮报》与Hyland联合举办的网络研讨会上,保险公司探讨了代理型人工智 […]

发布时间:2025年11月10日
法律创新者大会见证AI法律变革新时代来临

法律创新者大会见证AI法律变革新时代来临

快速阅读: 上周Legal Innovators UK活动显示法律AI转型步入现实,超1000人参与,演讲者分享积极应用AI的经验,标志着市场进入新时代。 情感涌动。这并不是“Artificial Lawyer”经常使用的表达。经过上周为期 […]

发布时间:2025年11月10日
AI助力石化行业运营智能化转型

AI助力石化行业运营智能化转型

快速阅读: Andreas Eschbach讨论了AI在石油天然气行业的应用,包括提高安全性、优化维护、实现数字化转型,通过智能平台解决运营难题,确保合规,提升效率和可靠性。 在本特别报告中,Andreas Eschbach 讨论了人工智能 […]

发布时间:2025年11月10日
科技巨头AI竞赛遇电力瓶颈

科技巨头AI竞赛遇电力瓶颈

快速阅读: 美国科技巨头在AI竞赛中面临电力供应挑战,计划2025年投入4000亿美元建数据中心,电力需求激增导致能源供应紧张,部分公司推迟关闭燃煤电厂。 在人工智能领域的竞赛中,尽管美国科技巨头拥有雄厚的资金和先进的芯片技术,但他们现在面 […]

发布时间:2025年11月10日
西甲与Globant合作,引入代理型AI优化运营

西甲与Globant合作,引入代理型AI优化运营

快速阅读: 西甲与Globant签署协议,引入代理型AI技术,旨在革新运营模式,提升效率和创新能力,加强在全球体育娱乐业的地位。 11月10日,西甲联赛(LaLiga)通过与计算机软件公司Globant签署谅解备忘录(MoU),正式引入基于 […]

发布时间:2025年11月10日
医信健康在香港金融科技周分享AI医疗支付创新

医信健康在香港金融科技周分享AI医疗支付创新

快速阅读: MediTrust Health在2025香港金融科技周上分享AI创新成果,CEO张赛强调AI正革新保险业,公司通过AI实现高效理赔处理,计划以香港为基点拓展海外,尤其关注跨境医疗服务。 香港(ANTARA/PRNewswire […]

发布时间:2025年11月10日
西奈山采用微软AI助手优化临床工作流程

西奈山采用微软AI助手优化临床工作流程

快速阅读: 西奈山医疗系统采用Dragon Copilot,通过AI助手嵌入临床工作流程,减少文档负担,改善信息流动,提升护理质量,成为首个部署此技术的学术医疗中心。 丽莎·斯通普,西奈山医疗系统执行副总裁兼首席数字信息官,以及伊坎医学院信 […]

发布时间:2025年11月10日
6G网络数字孪生性能提升,AI驱动激励系统优化任务卸载

6G网络数字孪生性能提升,AI驱动激励系统优化任务卸载

快速阅读: 研究团队提出6G网络中基于激励的任务卸载方案,利用斯塔克伯格博弈模型和深度强化学习算法,解决资源有限的移动接入点无法独立支持数字孪生AI训练的问题,提升运营商和mAPs的效用。 数字孪生网络通过构建物理网络的高精度虚拟副本,能够 […]

发布时间:2025年11月10日