Mistral 的 Voxtral 超越了转录,具有摘要、语音触发功能
快速阅读: 据《VentureBeat 公司》称,Mistral发布开源语音模型Voxtral,性能媲美付费产品,支持多语言,适用于企业部署。价格仅为同类API的一半。
想要更智能的见解进入您的邮箱吗?订阅我们的每周通讯,只获取对企业AI、数据和安全领导者至关重要的内容。立即订阅。
Mistral今天发布了一个开源语音模型,该模型可以与付费语音AI(如ElevenLabs和Hume AI)相媲美。该公司表示,该模型弥合了专有语音识别模型与更开放但容易出错的版本之间的差距。Voxtral将在Apache 2.0许可证下发布,提供24B参数版本和3B变体。大模型适用于大规模应用,而小版本则适用于本地和边缘使用场景。
“语音是人类最早的界面——在书写或打字之前,它让我们分享想法、协调工作并建立关系。随着数字系统的功能越来越强大,语音正回归为我们最自然的人机交互方式,”Mistral在一篇博客文章中说道。“然而,当今的系统仍然有限——不可靠、专有且过于脆弱,无法用于现实世界。弥合这一差距需要具备卓越转录能力、深度理解、多语言流利度以及开放灵活部署的工具。”
Voxtral可通过Mistral的API和网站上的仅转录端点获得。这些模型也可通过Mistral的聊天平台Le Chat访问。
**AI影响力系列重返旧金山 —— 8月5日**
**AI的下一阶段已经到来 —— 你准备好了吗?**
加入来自Block、GSK和SAP的领导者,独家了解自主代理如何重塑企业流程 —— 从实时决策到端到端自动化。立即预订席位 —— 名额有限:https://bit.ly/3GuuPLF
Mistral表示,语音AI“意味着要在两个权衡之间做出选择”,指出一些开源自动语音识别模型通常语义理解有限。然而,具有强大语言理解能力的封闭模型成本很高。弥合差距公司表示,Voxtral“以不到同类API一半的价格,在开放环境中提供了最先进的准确性和原生语义理解。”
Voxtral在32K token上下文中,可以听和转录最多30分钟的音频或40分钟的音频理解。它提供摘要功能,即模型可以根据音频内容回答问题并生成摘要,无需切换到单独模式。用户可以根据口头指令触发功能和API调用。该模型基于Mistral的Mistral Small 3.1。它支持多种语言,并能自动检测英语、西班牙语、法语、葡萄牙语、印地语、德语、意大利语和荷兰语等语言。
Mistral为Voxtral添加了企业功能,包括私有部署,使组织能够将模型集成到自己的生态系统中。这些功能还包括特定领域的微调和对需要帮助将Voxtral集成到其工作流程中的客户进行高级上下文和优先工程资源访问。
**性能**
如今,语音识别AI已在许多平台上可用。用户可以对ChatGPT说话,平台会像处理书面提示一样处理口头指令。快餐连锁店如White Castle已将其Drive-thru服务部署了SoundHound,ElevenLabs一直在稳步改进其多模态平台。开源领域也提供了强大的选项。Nari Labs这家初创公司于四月发布了开源语音模型Dia。
然而,其中一些服务可能相当昂贵。如Otter和Read.ai之类的转录服务现在可以嵌入Zoom会议中,记录、总结甚至提醒用户注意可操作事项。许多在线视频会议平台不仅提供转录,还提供语音AI和代理AI,Google Meet提供使用Gemini为用户做笔记的选项。
作为一名经常使用语音转录服务的普通用户,我可以亲身体验到语音识别AI并不完美,但它正在改善。Mistral表示,Voxtral优于现有的语音模型,包括OpenAI的Whisper、Gemini 2.5 Flash和ElevenLabs的Scribe。与目前被认为是最好的自动语音识别模型Whisper相比,Voxtral的单词错误更少。
在音频理解方面,Voxtral Small在所有任务中“与GPT-4o-mini和Gemini 2.5 Flash竞争,实现了语音翻译方面的最先进性能。”自宣布Voxtral以来,社交媒体用户表示他们一直在等待一个可以与Whisper性能相媲美的开源语音模型。
Mistral表示,Voxtral将通过其API提供,每分钟0.001美元。
**VB Daily每日商业案例见解**
如果您想给老板留下深刻印象,VB Daily会帮您做到。我们为您提供有关公司如何使用生成式AI的内部信息,从监管变化到实际部署,以便您可以分享见解以实现最大投资回报率。立即订阅。
阅读我们的隐私政策。
感谢您的订阅。在这里查看更多的VB通讯。
发生错误。
(以上内容均由Ai生成)