阶跃星辰发布30亿参数音频编辑模型,语音编辑如改Word
快速阅读: 国内AI独角兽阶跃星辰发布Step-Audio-EditX模型,实现自然语言指令编辑语音,支持普通话、英语、四川话和粤语,自然度评分4.72/5,情感准确率93.7%,音色保持度98.1%,引领音频内容生产新变革。
国内AI独角兽阶跃星辰(StepStepFun AI)于11月9日发布了全球领先的LLM级音频编辑模型——Step-Audio-EditX,首次实现了“通过自然语言指令编辑语音”的革命性体验。用户只需输入“将这段话改为川渝rapper的嚣张语气”或“在结尾加上一个害羞的笑声”,模型就能精确调整音色、情绪、节奏乃至呼吸停顿,使得语音编辑如同修改文档一般直观、高效。
Step-Audio-EditX的核心突破在于其高效的模型压缩技术。研发团队将原本130亿参数的模型精简至30亿,不仅显著降低了部署成本,还在关键性能指标上实现了超越。该模型支持零样本语音克隆,仅需一段参考音频,无需目标人物的任何训练数据,就能高保真地再现其音色;同时支持多轮迭代编辑,用户可以连续发出细化指令(如“再温柔一些”“将笑声延长0.3秒”),逐步达到理想的编辑效果。
该模型对中文语境的理解尤其出色,能够流畅支持普通话、英语、四川话和粤语,方言表达中的地域情感与语用习惯自然真实。在盲测中,评估人员一致认为其“川渝段子的市井感”和“粤语语气词的细腻度”远超同类产品。
与Minimax及字节跳动Doubao等闭源方案相比,Step-Audio-EditX在自然度评分、情感准确率和音色保持度三项核心指标上全面领先。据AIbase获取的对比数据显示,Step-Audio-EditX的自然度评分为4.72/5,情感准确率达到93.7%,音色保持度高达98.1%。
这项技术正在催生全新的内容形态:短视频博主可以一键切换“元气少女”、“毒舌导师”等人设声音;有声书创作者能独立完成多角色的情感对白;四川话搞笑视频经过AI重制,瞬间变成美式脱口秀风格,成功走向国际市场;听障用户的语音合成系统首次具备了“情感温度”,不再显得冰冷机械。
AIbase认为,Step-Audio-EditX的意义远不止于工具的升级——它正在重塑音频内容的生产逻辑。当语音不再是一旦录制便不可更改的线性媒介,而是可以反复打磨的“活文本”时,数以万计的创作者将获得前所未有的表达自由。未来,如果阶跃星辰开放API或将其集成到手机系统中,这把“AI魔法剪刀手”或将真正走进每个人的口袋,让每一次发声都能被重新定义。
(以上内容均由Ai生成)