ElevenLabs CEO预言AI语音模型将商品化,公司聚焦“模型+应用”双轮驱动
快速阅读: 在TechCrunch Disrupt 2025大会,ElevenLabs CEO马蒂表示,AI语音模型未来两三年将商品化,短期仍是企业核心竞争力,长期则需转向产品创新,强调多模态融合与应用创新的重要性。
在TechCrunch Disrupt 2025大会上,AI语音巨头ElevenLabs的联合创始人兼CEO马蒂·斯塔尼斯泽夫斯基(Mati Staniszewski)发表了一项引人关注的观点:AI语音模型将在未来两三年内走向“商品化”。尽管短期内这些模型仍然是企业的核心竞争力,但从长远看,模型间的性能差异将逐渐缩小,特别是在主流语言和通用音色方面。
图源备注:图片由AI生成,图片授权服务商Midjourney。
短期内依赖模型,长期内依靠产品。面对“既然模型最终会同质化,为什么还要大量投资研发”的质疑,斯塔尼斯泽夫斯基表示:“目前,模型依然是最大的技术壁垒。如果AI语音听起来不自然、不流畅,用户体验就无法保障。”他提到,ElevenLabs在过去对模型架构的改进(如情感表达、多语言韵律建模)是其当前领先市场的重要因素。
然而,公司已经为后模型时代做好了准备。斯塔尼斯泽夫斯基强调,ElevenLabs的长远目标不仅仅是成为一个“模型供应商”,而是要打造一个“AI+产品”的综合体验。就像苹果通过软硬件协同创新定义了智能手机,ElevenLabs希望通过自主研发的模型作为驱动力,推动高价值应用场景的发展,从而建立坚实的市场壁垒。
多模态融合将是未来的竞争焦点。展望未来1-2年,斯塔尼斯泽夫斯基预计,单一模态的语音模型将迅速向多模态融合转变。“你将能够同时生成音频和视频,或者在对话中实时连接大型语言模型和语音引擎。”他以谷歌最新发布的Veo3视频生成模型为例,阐述了跨模态协同正在成为技术的新前沿。
为此,ElevenLabs正积极与第三方模型和开源社区合作,探索如何将其先进的音频技术融入更广阔的AI生态系统中。比如,将ElevenLabs的语音合成技术与视觉生成、大型语言模型推理紧密结合,开发沉浸式的虚拟人物、智能客户服务或互动娱乐体验。
商品化不等于无价值,而是价值中心的转移。斯塔尼斯泽夫斯基认为,模型的商品化并不意味着行业的衰落,而是价值中心从基础技术转移到应用创新上。他解释说:“将来,企业会根据具体的使用场景选择不同的模型——客服系统用一种,游戏角色配音用另一种,教育讲解又用一种。可靠性、可扩展性和场景适应性,比单纯追求‘最佳音质’更为重要。”因此,ElevenLabs也在加强其API平台、开发者工具链和行业解决方案,确保客户不仅能够获取高质量的语音,还能迅速将其整合到实际业务流程中。
总结而言,在语音AI从展示技术魅力转向实际应用的关键时期,ElevenLabs选择了明确且务实的战略方向:短期内专注于模型研究,长期致力于产品开发。当业界普遍认为“模型即服务”时,真正的胜利者可能不是那些拥有最多参数的企业,而是最了解用户需求、能够将AI技术无缝融合到人类交互场景中的企业。
正如斯塔尼斯泽夫斯基所说:“最佳的用例,来自于产品与AI的完美结合。”而ElevenLabs正努力成为这一变革中的领军者。
(以上内容均由Ai生成)