阶跃星辰发布30亿参数音频编辑模型，语音编辑如改Word

发布时间：2025年11月10日来源：szf

快速阅读: 国内AI独角兽阶跃星辰发布Step-Audio-EditX模型，实现自然语言指令编辑语音，支持普通话、英语、四川话和粤语，自然度评分4.72/5，情感准确率93.7%，音色保持度98.1%，引领音频内容生产新变革。

国内AI独角兽阶跃星辰（StepStepFun AI）于11月9日发布了全球领先的LLM级音频编辑模型——Step-Audio-EditX，首次实现了“通过自然语言指令编辑语音”的革命性体验。用户只需输入“将这段话改为川渝rapper的嚣张语气”或“在结尾加上一个害羞的笑声”，模型就能精确调整音色、情绪、节奏乃至呼吸停顿，使得语音编辑如同修改文档一般直观、高效。

Step-Audio-EditX的核心突破在于其高效的模型压缩技术。研发团队将原本130亿参数的模型精简至30亿，不仅显著降低了部署成本，还在关键性能指标上实现了超越。该模型支持零样本语音克隆，仅需一段参考音频，无需目标人物的任何训练数据，就能高保真地再现其音色；同时支持多轮迭代编辑，用户可以连续发出细化指令（如“再温柔一些”“将笑声延长0.3秒”），逐步达到理想的编辑效果。

该模型对中文语境的理解尤其出色，能够流畅支持普通话、英语、四川话和粤语，方言表达中的地域情感与语用习惯自然真实。在盲测中，评估人员一致认为其“川渝段子的市井感”和“粤语语气词的细腻度”远超同类产品。

与Minimax及字节跳动Doubao等闭源方案相比，Step-Audio-EditX在自然度评分、情感准确率和音色保持度三项核心指标上全面领先。据AIbase获取的对比数据显示，Step-Audio-EditX的自然度评分为4.72/5，情感准确率达到93.7%，音色保持度高达98.1%。

这项技术正在催生全新的内容形态：短视频博主可以一键切换“元气少女”、“毒舌导师”等人设声音；有声书创作者能独立完成多角色的情感对白；四川话搞笑视频经过AI重制，瞬间变成美式脱口秀风格，成功走向国际市场；听障用户的语音合成系统首次具备了“情感温度”，不再显得冰冷机械。

AIbase认为，Step-Audio-EditX的意义远不止于工具的升级——它正在重塑音频内容的生产逻辑。当语音不再是一旦录制便不可更改的线性媒介，而是可以反复打磨的“活文本”时，数以万计的创作者将获得前所未有的表达自由。未来，如果阶跃星辰开放API或将其集成到手机系统中，这把“AI魔法剪刀手”或将真正走进每个人的口袋，让每一次发声都能被重新定义。

(以上内容均由Ai生成)