ElevenLabs CEO预言AI语音模型将商品化，公司聚焦“模型+应用”双轮驱动

发布时间：2025年11月1日来源：szf

快速阅读: 在TechCrunch Disrupt 2025大会，ElevenLabs CEO马蒂表示，AI语音模型未来两三年将商品化，短期仍是企业核心竞争力，长期则需转向产品创新，强调多模态融合与应用创新的重要性。

在TechCrunch Disrupt 2025大会上，AI语音巨头ElevenLabs的联合创始人兼CEO马蒂·斯塔尼斯泽夫斯基（Mati Staniszewski）发表了一项引人关注的观点：AI语音模型将在未来两三年内走向“商品化”。尽管短期内这些模型仍然是企业的核心竞争力，但从长远看，模型间的性能差异将逐渐缩小，特别是在主流语言和通用音色方面。

图源备注：图片由AI生成，图片授权服务商Midjourney。

短期内依赖模型，长期内依靠产品。面对“既然模型最终会同质化，为什么还要大量投资研发”的质疑，斯塔尼斯泽夫斯基表示：“目前，模型依然是最大的技术壁垒。如果AI语音听起来不自然、不流畅，用户体验就无法保障。”他提到，ElevenLabs在过去对模型架构的改进（如情感表达、多语言韵律建模）是其当前领先市场的重要因素。

然而，公司已经为后模型时代做好了准备。斯塔尼斯泽夫斯基强调，ElevenLabs的长远目标不仅仅是成为一个“模型供应商”，而是要打造一个“AI+产品”的综合体验。就像苹果通过软硬件协同创新定义了智能手机，ElevenLabs希望通过自主研发的模型作为驱动力，推动高价值应用场景的发展，从而建立坚实的市场壁垒。

多模态融合将是未来的竞争焦点。展望未来1-2年，斯塔尼斯泽夫斯基预计，单一模态的语音模型将迅速向多模态融合转变。“你将能够同时生成音频和视频，或者在对话中实时连接大型语言模型和语音引擎。”他以谷歌最新发布的Veo3视频生成模型为例，阐述了跨模态协同正在成为技术的新前沿。

为此，ElevenLabs正积极与第三方模型和开源社区合作，探索如何将其先进的音频技术融入更广阔的AI生态系统中。比如，将ElevenLabs的语音合成技术与视觉生成、大型语言模型推理紧密结合，开发沉浸式的虚拟人物、智能客户服务或互动娱乐体验。

商品化不等于无价值，而是价值中心的转移。斯塔尼斯泽夫斯基认为，模型的商品化并不意味着行业的衰落，而是价值中心从基础技术转移到应用创新上。他解释说：“将来，企业会根据具体的使用场景选择不同的模型——客服系统用一种，游戏角色配音用另一种，教育讲解又用一种。可靠性、可扩展性和场景适应性，比单纯追求‘最佳音质’更为重要。”因此，ElevenLabs也在加强其API平台、开发者工具链和行业解决方案，确保客户不仅能够获取高质量的语音，还能迅速将其整合到实际业务流程中。

总结而言，在语音AI从展示技术魅力转向实际应用的关键时期，ElevenLabs选择了明确且务实的战略方向：短期内专注于模型研究，长期致力于产品开发。当业界普遍认为“模型即服务”时，真正的胜利者可能不是那些拥有最多参数的企业，而是最了解用户需求、能够将AI技术无缝融合到人类交互场景中的企业。

正如斯塔尼斯泽夫斯基所说：“最佳的用例，来自于产品与AI的完美结合。”而ElevenLabs正努力成为这一变革中的领军者。

(以上内容均由Ai生成)