ElevenLabs CEO：AI语音模型将商品化，公司聚焦“模型+应用”双轮驱动

发布时间：2025年10月30日来源：szf

快速阅读: ElevenLabs CEO斯塔尼斯泽夫斯基预测，AI语音模型未来两三年将实现商品化，性能差距缩小。公司正通过情感表达和多语言韵律建模等技术创新，为后模型时代做准备，目标是打造“AI+产品”综合体验，推动多模态融合应用。

在TechCrunch Disrupt 2025大会上，AI语音巨头ElevenLabs的联合创始人兼CEO马蒂·斯塔尼斯泽夫斯基（Mati Staniszewski）提出了一项大胆预测：AI语音模型将在未来两三年内实现“商品化”。尽管短期内这些模型仍然是企业的核心竞争力，但从长远来看，不同模型间的性能差距将逐渐缩小，尤其是在主流语言和通用音色方面。

图片由AI生成，授权服务商为Midjourney。

面对“既然模型最终会变得同质化，为何还要大力投资研发”的疑问，斯塔尼斯泽夫斯基表示：“目前，模型依然是最大的技术壁垒。如果AI语音不能自然流畅地工作，用户体验就无法得到保证。”他提到，ElevenLabs在过去对模型架构的改进，比如情感表达和多语言韵律建模，是其目前领先市场的关键因素。

然而，公司已经为后模型时代做好了准备。斯塔尼斯泽夫斯基强调，ElevenLabs的长期目标不仅是成为一个“模型供应商”，而是要打造一个“AI+产品”的综合体验。就像苹果通过软硬件的协同作用重新定义了智能手机，ElevenLabs希望通过自主研发的模型作为驱动力，推动高价值应用场景的发展，建立坚实的竞争优势。

展望未来1至2年，斯塔尼斯泽夫斯基预计单一模式的语音模型将迅速发展为多模态融合。“你将能够同时生成音频和视频，或者在对话中实时整合大型语言模型与语音引擎。”他以Google最新发布的Veo3视频生成模型为例，展示了跨模态协同如何成为技术的新前沿。

为了实现这一目标，ElevenLabs正在积极与第三方模型和开源社区合作，探索如何将其顶级的音频能力融入更广泛的AI生态系统。例如，通过将ElevenLabs的语音合成技术与视觉生成和大型语言模型推理相结合，可以创建出沉浸式的虚拟人物、智能客户服务或互动娱乐体验。

斯塔尼斯泽夫斯基认为，模型的商品化并不意味着行业的衰落，而是价值重点从基础技术转向应用创新的转变。他解释说：“未来，企业将根据不同场景选择不同的模型——客服系统使用一种，游戏配音使用另一种，教育内容又使用第三种。可靠性和适应性比单纯追求‘最佳音质’更为重要。”因此，ElevenLabs正在加强其API平台、开发者工具链和行业解决方案，确保客户不仅能够获取高质量的语音服务，还能轻松将其集成到实际业务流程中。

总结而言，在语音AI技术从展示技术实力向实用化转变的关键时期，ElevenLabs采取了明确且务实的战略：短期内专注于模型的优化，长期内则深入产品开发。当行业普遍认识到“模型即服务”（Model-as-a-Commodity）的趋势时，真正的胜利者可能不会是拥有最多参数的公司，而是最了解用户需求、能够将AI技术无缝融入人类交互场景的企业。正如斯塔尼斯泽夫斯基所说：“最好的应用案例，来源于产品与AI技术的完美结合。”而ElevenLabs正努力成为这场变革中的领航者。

(以上内容均由Ai生成)