十一实验室推出实时多语言转录工具Scribe v2
快速阅读: ElevenLabs推出Scribe v2实时版,支持90多种语言,实现实时转录,精度高,适用于语音助手、会议工具、实时字幕等领域,特别优化印度市场,符合数据法规。
语音AI公司ElevenLabs推出了其最先进的语音转文字模型Scribe v2实时版,该模型能够在150毫秒内提供接近人类质量的实时转录服务。该模型支持超过90种语言,其中包括11种印度语言,如印地语、泰米尔语、马拉雅拉姆语、卡纳达语、泰卢固语和古吉拉特语。
ElevenLabs表示,该模型在FLEURS基准测试中,跨30种欧洲和亚洲语言达到了93.5%的准确率,为实时多语言交流树立了新的标准。Scribe v2实时版旨在服务于开发语音助手、会议工具和实时字幕应用的开发者和企业。
据ElevenLabs介绍,该模型具备负延迟预测、文本调节、语音活动检测(VAD)及手动提交控制等功能,以提高流媒体性能。企业应用范围广泛,涵盖客户电话转录、合规监控、医疗口述、实时会议记录以及教育和媒体的无障碍字幕等。
在印度,ElevenLabs提供了数据驻留选项,以符合当地的数据法规。该模型还与ElevenLabs代理集成,使开发者能够创建更加自然的对话系统,用于支持和销售工作流程。
主要特点包括超低延迟实时转录、下词及标点预测、领域特定自定义词汇表和零保留模式以处理敏感工作负载。此外,它还提供说话人识别、时间戳精确度和全面的企业合规性,符合印度和全球标准。
Scribe v2实时版今日通过ElevenLabs API上线,并可直接部署于ElevenLabs代理中。ElevenLabs最近还推出了聊天模式,这是一种仅限文本的功能,扩展了其以语音为主的AI应用。此外,该公司通过与Merlin Network和Kobalt Music Group的许可合作,进一步涉足AI生成音乐领域,为电影、游戏和健康行业的创作者提供版权安全的内容。
(以上内容均由Ai生成)