Stability AI发布Stable Audio2.5,音频生成技术再突破
快速阅读: Stability AI 发布 Stable Audio2.5,支持复杂音乐创作,响应情感和风格提示,生成速度快,兼容移动设备,具备音频修补功能,确保版权合规,适用于多领域,与 WPP 合作。
近日,Stability AI 推出了最新音频生成模型 Stable Audio2.5,旨在为专业音效制作提供更高效的解决方案。该模型设计的初衷是帮助创意团队快速生成高质量、可定制的音频作品,以满足市场对音频内容日益增长的需求。
Stable Audio2.5 的最大亮点在于其生成能力更为复杂,能够创作包括引子、发展和尾声在内的多段音乐作品。Stability AI 表示,新模型能够更准确地响应情感提示,如“振奋人心”,并能理解特定音乐风格的提示,例如“丰富的合成器声”。用户只需几秒钟即可生成最长三分钟的音乐曲目,而在 Nvidia H100 GPU 上,处理时间甚至低于两秒。
该模型的速度得益于其采用的后期训练方法——对抗相对对比(Adversarial Relativistic-Contrastive,简称 ARC),这一技术由公司研究团队开发。Stability AI 于今年五月还推出了一款适用于智能手机的紧凑版本,同样使用 ARC 方法。Stable Audio Open Small 模型能够在移动设备上生成最多11秒的立体声音频,仅需七秒钟。
在功能方面,Stable Audio2.5 的主要更新是音频修补功能。用户可以上传自己的音频文件,选择起点,让 AI 生成后续内容,完成或扩展现有的录音。此外,用户还可以通过文字提示生成音乐。需要注意的是,上传的文件必须是无版权的,Stability AI 通过先进的识别系统来确保版权合规。与早期版本一样,Stable Audio2.5 也是在一个已授权的数据集上进行训练的,被认为商业安全。
Stability AI 希望该技术能应用于广告、零售、品牌音效等多个领域,与 WPP 旗下的音效品牌代理机构 Amp 合作,为大型客户提供一致的音频识别服务。Stability AI 的音频团队还可以根据公司的音效库调整模型,打造独特的音频标识。Stable Audio2.5 将通过 WPP Open 平台面向 WPP 的全球客户开放。
自2024年4月推出 Stable Audio2 以来,Stability AI 已开始在音频领域扩展合作伙伴网络,努力增强自身的财务实力。今年3月,WPP 集团对 Stability AI 进行了不公开的投资,而 Meta 也在加速推进其音频研究。
(以上内容均由Ai生成)