研究人员推出 AudioX — 将任何内容转换为音频、音乐的 AI 模型

发布时间：2025年3月20日来源：szf

快速阅读: 据《印度分析杂志》最新报道，香港科技大学与Moonshot AI合作推出多模态AI模型AudioX，可处理文本、视频、音频等生成优化音频。模型通过构建大型数据集解决数据短缺问题，展现优秀单模态与跨模态性能。未来，AudioX有望推动音频生成领域新发展。

香港科技大学与Moonshot AI的研究团队推出了一款名为AudioX的新人工智能模型。这款模型能够利用多模态输入生成音频和音乐。据描述，AudioX是一款统一化的模型，具有灵活的自然语言控制能力，并能无缝处理各种输入类型，包括文本、视频、图像、音乐和音频。这与通常专注于单一模态或有限输入条件的标准领域特定模型有所不同。

研究论文中提到，使用AudioX的应用场景包括文本转音频、文本加视频转音频以及视频转音频。值得一提的是，该AI模型还能通过文本提示优化现有音频，改进未处理的音乐，并从零开始生成音乐。网友对GitHub仓库上分享的模型演示表现出浓厚兴趣，展示了许多有趣实例，比如为网球视频生成音频。研究人员表示，他们的目标是解决高质量多模态数据短缺的问题，这是多功能音频生成系统发展的重要障碍。为此，他们构建了两个综合性的数据集：一个是基于VGGSound数据集的vggsound-caps，包含19万条音频描述；另一个是基于V2M数据集的V2M-caps，包含600万条音乐描述。

研究论文指出：“实验结果表明，AudioX不仅在单模态任务中表现优异，而且在跨模态性能方面也有显著提升，展现了推动多模态音频生成领域发展的潜力。”目前，该模型的代码尚未公开，研究人员提到它将在GitHub页面发布，但没有给出具体的时间表和许可细节。目前市面上已有多种文本转音乐模型以及部分文本转语音模型，这些工具已在AI领域展现出丰富的创意应用。未来需要观察AudioX能否带来更多的可能性。

—

### AudioX：开启多模态音频生成新篇章

香港科技大学与Moonshot AI联合研发的全新AI模型——AudioX，以其独特的多模态处理能力引发了广泛关注。不同于传统专注于单一模态的模型，AudioX能够轻松应对文本、视频、图像、音乐及音频等多种输入形式，为用户提供了前所未有的灵活性和创造力。

无论是将文本转化为逼真的音频效果，还是结合视频与文本生成背景音效，AudioX都能轻松驾驭。更令人惊叹的是，它还可以通过文本提示优化现有音频，改善未经处理的音乐素材，甚至从零开始创作全新的音乐作品。这一系列功能已经在GitHub上的模型演示中得到了充分验证，例如为一段网球比赛视频添加动态音效，让观众仿佛置身现场。

然而，AudioX的意义远不止于此。作为一款面向未来的多模态音频生成工具，它的核心使命在于破解高质量多模态数据短缺的难题。为此，研究团队精心打造了两个庞大的综合性数据集：一是基于VGGSound的vggsound-caps，收录了19万条音频描述；二是针对音乐领域的V2M-caps，包含了惊人的600万条音乐描述。这些数据资源极大地丰富了模型的学习基础，使其在单模态任务中表现卓越的同时，也在跨模态性能上实现了质的飞跃。

尽管AudioX的代码尚未完全公开，但其潜在价值已经引起了行业的高度期待。随着更多开发者加入探索行列，这款模型有望掀起新一轮的创意浪潮。让我们拭目以待，看看AudioX将如何重新定义多模态音频生成的未来！

(以上内容均由Ai生成)