ElevenLabs 的新语音转文本模型 Scribe 以迄今为止最高的准确率 (英语为 96.7%)

发布时间:2025年2月27日    来源:szf
ElevenLabs 的新语音转文本模型 Scribe 以迄今为止最高的准确率 (英语为 96.7%)

快速阅读: 据《VentureBeat 公司》称,十一实验室近日发布了Scribe v1,一款据称在多种语言中具有最高准确率的语音转文本模型。Scribe能识别多达32个说话者,并在多个基准测试中超越谷歌和OpenAI的产品。目前,Scribe可通过十一实验室网站和API获取,每小时输入音频定价0.40美元,六周内有50%折扣。十一实验室下周将举办虚拟活动详细介绍该产品。

加入我们的每日和每周通讯,获取行业领先的人工智能报道的最新更新和独家内容。了解由前Palantir校友创立的高度评价的人工智能语音克隆和生成初创公司十一实验室,今日发布了Scribe v1,这是一个据称在多种语言中达到最高准确率的新语音转文本模型。用户可以在十一实验室网站上试用它。根据该公司的基准测试,Scribe在将口语转换为网络文字方面,表现优于谷歌的Gemini 2.0 Flash、OpenAI的Whisper v3和Deepgram Nova-3,达到了前所未有的低错误率。该公司声称Scribe在99种语言中提供了最先进的转录准确性,包括塞尔维亚语、粤语和马拉雅拉姆语等之前服务较少的语言。十一实验室首席研究员弗拉维奥·施耐德在X上写道,Scribe是迄今为止十一实验室发布的“最聪明的音频理解模型”。“Scribe不仅仅是转录——它理解音频,”施耐德在回复中继续说道。“它可以检测非言语事件(如笑声、音效、音乐和背景噪音),并分析长音频上下文以实现准确的说话人分离,即使在最具挑战性的环境中也是如此。”

“说话人分离”指的是通过录音中的声音特征来区分说话人的过程。事实上,十一实验室的文档指出Scribe可以分辨并隔离同一音频文件中的多达32个不同说话者。尽管十一实验室警告Scribe“更适合用于高精度转录而非实时转录”,但该公司也计划推出一个低延迟版本,以扩大其在实时应用中的使用。最低单词错误率(WER):Scribe设计用于精确处理现实世界的音频挑战。根据FLEURS和Common Voice的基准测试结果,它记录了许多语言的最低单词错误率(WER),包括意大利语(98.7%)和英语(96.7%)。

主要功能如下:
– 说话人分离,用于多说话人录音的区分
– 逐字时间戳,以确保详细的转录准确性
– 检测非语音事件,如笑声和背景噪音
– 结构化的转录输出,便于通过API无缝集成

价格与可用性:Scribe现在可以通过十一实验室网站和API获得。定价为每小时输入音频0.40美元,接下来六周内有50%的折扣。一个用于实时应用的低延迟版本也在开发中。

对企业意味着什么:对于企业决策者来说,Scribe提供了一种可扩展且高精度的转录工具,适用于依赖自动化文档、会议转录和内容可访问性的行业。该模型能够以高精度处理多种语言的能力也使跨国公司、媒体公司和客户服务应用程序受益。Scribe的价格结构使其成为需要大量转录服务企业的有力竞争者,而其基于API的集成则允许其无缝融入企业工作流程。此外,即将推出的低延迟版本可能会使Scribe成为实时通信工具的一个可行选项。

与竞争对手Hume的Octave同日发布:时机就是一切,十一实验室选择在竞争对手Hume AI公布Octave的同一天发布Scribe。Octave是一个由大语言模型(LLM)驱动的文本转语音模型,允许用户调整AI生成的声音的情感。它被设计用于内容创作,包括有声书、播客和视频游戏配音。与标准TTS系统不同,Octave考虑了句子之外的上下文,动态调整语气、节奏和语调,以听起来更自然。Hume AI将Octave定位为十一实验室文本转语音产品的直接竞争对手,并强调Octave的价格大约是十一实验室当前AI语音服务的一半。

虽然Scribe和Octave服务于不同的功能,但它们的发展反映了人工智能驱动的音频模型竞争的加剧。十一实验室优先考虑精确的多语言语音识别,而Hume AI则推进表达性的AI生成语音。对企业而言,这意味着更多专门的解决方案,用于转录和合成语音应用,从而提高内容制作、客户互动和无障碍工具的效率。Scribe现已上线,十一实验室下周将举办一场虚拟活动,介绍其开发团队。更多详细信息、基准测试和API文档可在官方博客文章中找到。

每日业务案例洞察:VB每日
如果你想给你的老板留下深刻印象,VB每日可以帮到你。我们为你提供公司如何使用生成式人工智能的内部消息,从监管变化到实际部署,这样你就可以分享见解以实现最大回报。立即订阅吧。
阅读我们的隐私政策
感谢您的订阅。
查看更多VB通讯。

(以上内容均由Ai生成)

你可能还想读

LEO卫星信号助力弱GPS区域精准导航

LEO卫星信号助力弱GPS区域精准导航

快速阅读: 据最新消息,美国俄亥俄州立大学研究证实,星链与一网等低轨卫星信号可有效补充GPS,在无GNSS环境下将定位误差从超1公里降至约27米,为关键基础设施提供高精度导航备份方案。 日前,美国俄亥俄州立大学研究团队证实,商业低轨(LEO […]

发布时间:2025年12月8日
美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

美国能源部 17 个国家实验室全景及创世纪计划战略布局分析

快速阅读: 美国能源部17个国家实验室构成顶尖科研体系,在基础科学、能源安全、气候变化等领域发挥关键作用。拥有全球领先的超算资源及顶尖人才,年经费约220亿美元。随着“创世纪计划”启动,实验室将形成协同网络,推动美国在清洁能源、量子计算等前 […]

发布时间:2025年12月8日
星舰月球计划更新,SpaceX誓不放弃月球竞争

星舰月球计划更新,SpaceX誓不放弃月球竞争

快速阅读: FSD V14.2.1在标志识别方面改进明显,长期测试者Chuck Cook观察到学校区域行为改善,系统对时间规则认识提高,有助于减少动态环境中的误报。 FSD V14.2.1在标志识别方面也显示出改进。长期测试者Chuck C […]

发布时间:2025年11月30日
太空竞赛再起波澜,SpaceX澄清与NASA合作细节

太空竞赛再起波澜,SpaceX澄清与NASA合作细节

快速阅读: Riot Games计划举办《英雄联盟》人机对抗赛,Grok 5参赛将受限于人类水平,展现AI实时互动能力,有望成最具影响力赛事。 尽管尚未确定具体比赛,但从选手、队伍以及Riot Games的兴趣来看,这一概念有可能实现,成为 […]

发布时间:2025年11月26日
中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

中国广电称合作建设卫星移动互联网,展示业界首款一体化便携基站

快速阅读: 中国广电董事长宋起柱出席5G+工业互联网大会,提出强算注智、数智赋能、深耕特色三大举措,展示5G 700MHz应急基站,推动超高清产业与工业互联网发展。 IT之家 11 月 23 日消息,据人民邮电报报道,中国广电党委书记、董事 […]

发布时间:2025年11月23日
谷歌Gemini 3 Pro发布

谷歌Gemini 3 Pro发布

快速阅读: 谷歌发布新一代推理模型Gemini 3 Pro,显著提升数学、编程和视觉理解能力。一经发布,Gemini 3 Pro几乎横扫各大评测榜单,在LMArena大模型竞技场中以1501的Elo得分高居榜首。在MathArena数学竞赛 […]

发布时间:2025年11月19日
独具创新,直击痛点:深度解析华为十大最新方案

独具创新,直击痛点:深度解析华为十大最新方案

快速阅读: 第三个方案,是华为的U6GHzAAU天线。综合来看,华为的U6GAAU,真正实现了容量覆盖双优,助力全球U6G商用。LampSiteX,是LampSite系列的最新型号。第五个方案,是华为有源天线产品——EasyAAU。Easy […]

发布时间:2025年11月13日
Palantir估值承压仍领跑AI赛道

Palantir估值承压仍领跑AI赛道

快速阅读: 近期,美国AI概念股整体承压,Palantir与英伟达遭遇做空传闻,引发市场短暂震荡。然而,在宏观调整与估值质疑中,Palantir仍凭借强劲业绩与差异化AI布局维持长期增长势头。分析人士认为,该公司正处于由“政府数据支撑”向“ […]

发布时间:2025年11月12日