Mistral 的 Voxtral 超越了转录,具有摘要、语音触发功能

发布时间:2025年7月16日    来源:szf
Mistral 的 Voxtral 超越了转录,具有摘要、语音触发功能

快速阅读: 据《VentureBeat 公司》称,Mistral发布开源语音模型Voxtral,性能媲美付费产品,支持多语言,适用于企业部署。价格仅为同类API的一半。

想要更智能的见解进入您的邮箱吗?订阅我们的每周通讯,只获取对企业AI、数据和安全领导者至关重要的内容。立即订阅。

Mistral今天发布了一个开源语音模型,该模型可以与付费语音AI(如ElevenLabs和Hume AI)相媲美。该公司表示,该模型弥合了专有语音识别模型与更开放但容易出错的版本之间的差距。Voxtral将在Apache 2.0许可证下发布,提供24B参数版本和3B变体。大模型适用于大规模应用,而小版本则适用于本地和边缘使用场景。

“语音是人类最早的界面——在书写或打字之前,它让我们分享想法、协调工作并建立关系。随着数字系统的功能越来越强大,语音正回归为我们最自然的人机交互方式,”Mistral在一篇博客文章中说道。“然而,当今的系统仍然有限——不可靠、专有且过于脆弱,无法用于现实世界。弥合这一差距需要具备卓越转录能力、深度理解、多语言流利度以及开放灵活部署的工具。”

Voxtral可通过Mistral的API和网站上的仅转录端点获得。这些模型也可通过Mistral的聊天平台Le Chat访问。

**AI影响力系列重返旧金山 —— 8月5日**

**AI的下一阶段已经到来 —— 你准备好了吗?**

加入来自Block、GSK和SAP的领导者,独家了解自主代理如何重塑企业流程 —— 从实时决策到端到端自动化。立即预订席位 —— 名额有限:https://bit.ly/3GuuPLF

Mistral表示,语音AI“意味着要在两个权衡之间做出选择”,指出一些开源自动语音识别模型通常语义理解有限。然而,具有强大语言理解能力的封闭模型成本很高。弥合差距公司表示,Voxtral“以不到同类API一半的价格,在开放环境中提供了最先进的准确性和原生语义理解。”

Voxtral在32K token上下文中,可以听和转录最多30分钟的音频或40分钟的音频理解。它提供摘要功能,即模型可以根据音频内容回答问题并生成摘要,无需切换到单独模式。用户可以根据口头指令触发功能和API调用。该模型基于Mistral的Mistral Small 3.1。它支持多种语言,并能自动检测英语、西班牙语、法语、葡萄牙语、印地语、德语、意大利语和荷兰语等语言。

Mistral为Voxtral添加了企业功能,包括私有部署,使组织能够将模型集成到自己的生态系统中。这些功能还包括特定领域的微调和对需要帮助将Voxtral集成到其工作流程中的客户进行高级上下文和优先工程资源访问。

**性能**

如今,语音识别AI已在许多平台上可用。用户可以对ChatGPT说话,平台会像处理书面提示一样处理口头指令。快餐连锁店如White Castle已将其Drive-thru服务部署了SoundHound,ElevenLabs一直在稳步改进其多模态平台。开源领域也提供了强大的选项。Nari Labs这家初创公司于四月发布了开源语音模型Dia。

然而,其中一些服务可能相当昂贵。如Otter和Read.ai之类的转录服务现在可以嵌入Zoom会议中,记录、总结甚至提醒用户注意可操作事项。许多在线视频会议平台不仅提供转录,还提供语音AI和代理AI,Google Meet提供使用Gemini为用户做笔记的选项。

作为一名经常使用语音转录服务的普通用户,我可以亲身体验到语音识别AI并不完美,但它正在改善。Mistral表示,Voxtral优于现有的语音模型,包括OpenAI的Whisper、Gemini 2.5 Flash和ElevenLabs的Scribe。与目前被认为是最好的自动语音识别模型Whisper相比,Voxtral的单词错误更少。

在音频理解方面,Voxtral Small在所有任务中“与GPT-4o-mini和Gemini 2.5 Flash竞争,实现了语音翻译方面的最先进性能。”自宣布Voxtral以来,社交媒体用户表示他们一直在等待一个可以与Whisper性能相媲美的开源语音模型。

Mistral表示,Voxtral将通过其API提供,每分钟0.001美元。

**VB Daily每日商业案例见解**

如果您想给老板留下深刻印象,VB Daily会帮您做到。我们为您提供有关公司如何使用生成式AI的内部信息,从监管变化到实际部署,以便您可以分享见解以实现最大投资回报率。立即订阅。

阅读我们的隐私政策。

感谢您的订阅。在这里查看更多的VB通讯。

发生错误。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日