Hume 推出文本转语音模型 Octave,可根据您的提示按需生成情绪化、可调整的 AI 语音

发布时间:2025年2月26日    来源:szf
Hume 推出文本转语音模型 Octave,可根据您的提示按需生成情绪化、可调整的 AI 语音

快速阅读: 据《VentureBeat 公司》称,赫米AI推出了一款名为“八度音阶”的新文本转语音模型,可生成逼真且具情感细节的语音。该模型基于大规模语言模型训练,能理解上下文并调整语气。八度音阶支持多种内容形式,包括有声读物、播客和视频游戏角色对话。赫米AI提供了不同的订阅计划,价格低于竞争对手ElevenLabs。该公司还开发了语音克隆功能,以增强灵活性和控制。

订阅我们的每日和每周通讯,获取关于行业领先的AI覆盖的最新资讯和独家内容。了解更多纽约市初创公司赫米AI两年前浮出水面,并在此基础上筹集了数百万美元的资金,其技术能够为企业的应用程序创建情感化的AI声音。如今,它通过一个名为“全能文本和语音引擎”,简称八度音阶的新大型语言和语音模型,将服务提升到一个新的水平。该模型旨在生成逼真且具有情感细微差别的语音,适用于从有声读物到预录制视频游戏角色对话和电影/电视/视频等多种形式的内容。赫米宣称八度音阶是首个由大规模语言模型(LLM)驱动的文本转语音系统,该模型不仅基于文本训练,还基于语音和情感标记训练,使其能够理解上下文中的词汇并相应地调整语气、节奏和语调——用户可以通过文本提示在句子级别上进行调整。

如今,它通过一个名为“全能文本和语音引擎”,简称八度音阶的新大型语言和语音模型,将服务提升到一个新的水平。该模型旨在生成逼真且具有情感细微差别的语音,适用于从有声读物到预录制视频游戏角色对话和电影/电视/视频等多种形式的内容。“我们推出了第一个用于文本转语音的LLM——一个理解上下文中词汇的模型,预测正确的感情、节奏、语调和强调,使语音听起来比以往任何时候都更像人类,”赫米AI的联合创始人兼首席执行官艾伦·考恩在接受《VentureBeat》采访时说。

如今,它通过一个名为“全能文本和语音引擎”,简称八度音阶的新大型语言和语音模型,将服务提升到一个新的水平。该模型旨在生成逼真且具有情感细微差别的语音,适用于从有声读物到预录制视频游戏角色对话和电影/电视/视频等多种形式的内容。八度音阶的能力超越了基本的声音生成。它可以仅从剧本中解读角色特征和风格,调整声音的抑扬顿挫以匹配隐含的情感。一句讽刺的话会被讽刺地说出来,一句惊慌失措的句子会听起来很急迫,一句低语的秘密会被压低——所有这些都不需要明确的指示。

此外,如果用户不喜欢生成的声音或想要调整它,他们可以通过自然语言通过简单地向八度音阶输入文本指令来精细调整,例如“更快乐、更悲伤、更沮丧、更愤怒、更讽刺、更真诚”等。“你可以描述一个角色——比如一个讽刺的中世纪农夫——模型会立即创建那种声音,根据你的指令调整愤怒、悲伤或快乐等情绪,”考恩补充道。“语音调节可以在句子级别进行,但你也可以调整句子的一部分,指示模型传达微妙的情绪,如轻微的挫败感混合着幽默或恼怒。”

该模型还会考虑超出单个句子的上下文。“与传统逐字处理文本的模型不同,我们的模型会考虑整个段落,捕捉上下文以提供更自然和情感准确的语音,”他解释道。虽然目前发布的版本专注于英语语音,但八度音阶也支持西班牙语,并预计在未来不久会扩展其语言能力。

为内容创作定制八度音阶专为内容创作者和媒体制作而设计,适用于有声读物、播客、视频游戏角色和视频配音。“这个新模型是为离线文本转语音设计的——非常适合有声读物、播客、视频配音和视频游戏角色——创作者需要真实的角色特定声音,”考恩解释道。然而,用户必须通过赫米的网站在其项目页面或通过应用程序编程接口(API)访问它。所谓的“离线”部分是指该模型被设计成生成可以添加到视频或有声读物等项目的独立音频文件。它并不设计来进行实时对话,尽管理论上可以通过将文本查询输入网站来实现这一点。赫米的API允许开发者每分钟最多向新的八度音阶模型发起50个请求,每次请求的最大文本长度为5,000个字符,描述最多为1,000个字符。每个请求可以生成多达五个输出,支持的音频格式包括MP3、WAV和PCM。赫米之前的EVI系列模型支持流式、实时的双向交互,并将继续可用和发展。

赫米AI提供基于订阅的定价模式,分为免费选项、创作者计划、创作者专业版和企业版。以下是简要的价格概述:

– 免费(每月0元)- 每月10,000个字符的文本转语音(约10分钟),自定义语音无限制。
– 入门级(每月3元)- 每月30,000个字符(约30分钟),支持最多20个项目。
– 创作者(每月10元)- 每月100,000个字符(约100分钟),超出部分按每1,000个字符0.20元计费,支持最多1,000个项目。
– 专业版(每月50元)- 每月500,000个字符(约500分钟),超出部分按每1,000个字符0.15元计费,支持最多3,000个项目。
– 扩展版(每月150元)- 每月2,000,000个字符(约2,000分钟),超出部分按每1,000个字符0.13元计费,支持最多10,000个项目。
– 商业版(每月900元)- 每月10,000,000个字符(约10,000分钟),超出部分按每1,000个字符0.10元计费,支持最多20,000个项目。
– 企业版(定制价格)- 无限使用,定制法律条款,安全保证,大幅折扣批量定价,优先支持。

总体而言,赫米强调八度音阶TTS的定价大约仅为ElevenLabs的一半,显示出在文本转语音领域的竞争正在加剧。此外,赫米AI进行了一项盲测比较研究,邀请了180名人评委对八度音阶和ElevenLabs进行基准测试。结果显示,在120个多样化的提示下,八度音阶在音质(71.6%的试验)、自然度(51.7%的试验)以及语音是否符合所需声音描述方面(57.7%的试验)均优于ElevenLabs。

为了进一步评估其性能,赫米AI还推出了“表达式TTS竞技场”,这是一个公开的基准测试,旨在测试AI模型如何处理更长、更具表现力的语音——这是以前的TTS基准测试大多忽略的领域。数十万亿的语言标记与依赖有限语音数据集的传统文本转语音系统不同,八度音阶TTS建立在一个经过数十万亿语言标记训练的大规模语言模型(LLM)之上。“传统的文本转语音模型是在有限的语音数据上训练的,但我们的模型是建立在一个经过数十万亿标记训练的LLM之上,这使它能够推理、思考和从文本中推断情感,”考恩说。

与依赖有限语音数据集的传统文本转语音系统不同,八度音阶TTS建立在一个经过数十万亿语言标记训练的大规模语言模型(LLM)之上。该模型使用数百万小时的公共长篇语音数据和赫米AI的专有数据集进行了训练,这些数据集是由调查参与者录制的新声音。“我们收集了人们通过网络摄像头录制自己的数据,自然地对视频做出反应,讲故事,与他人交谈,包括朋友和家人,以捕捉广泛的情感表达,”考恩说。这种广泛的训练使模型能够推断情感背景并遵循详细的指导,创造出符合特定角色描述和属性的声音。

八度音阶TTS在长篇内容中保持角色声音的一致性。“通过我们的平台,你可以为有声读物中的每个角色生成独特的声音——比如一个中年兽人——并在整个故事中保持该角色的声音,”考恩说。这一功能得到了赫米AI“项目”页面的支持,该页面通过自动分割文本来处理长篇内容,同时在整个章节中保持角色一致性。

赫米在其网站和API中内置了技术防护栏,禁止创建逼真的儿童声音和模仿特定个体,除此之外,它开放用于广泛的内容和主题,包括可能不适合工作的场景,如流行浪漫小说中的场景。“我们给予开发者自由,允许跨越广泛的人类体验的内容,尽管我们限制创建逼真的儿童声音和模仿特定个体,”考恩解释道。此外,考恩表示,公司可以根据特定客户的要求调整这些防护栏,例如一家儿童图书出版商希望为其儿童有声读物创建声音。赫米AI正在开发即将推出的语音克隆功能,该功能将允许用户仅从5秒的音频复制声音。公司在公开推出该功能之前正在开发保障措施以确保其伦理使用。

凭借其情境感知、情感表达和角色定制的结合,八度音阶TTS旨在为内容创作者提供更多控制和灵活性,提供既逼真又情感丰富的声音。

(以上内容均由Ai生成)

你可能还想读

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

攻关 6G“拐点技术”:国星宇航 × 北京邮电大学共建语义卫星联合实验室

快速阅读: 国星宇航与北京邮电大学共建语义卫星联合实验室,聚焦语义卫星星座建设等关键技术,加速太空AI技术转化与应用落地,推动6G通信发展。 IT之家 10 月 22 日消息, 国星宇航今日宣布,将携手北京邮电大学共建语义卫星联合实验室 。 […]

发布时间:2025年10月23日
贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

贝索斯展望太空数据中心:利用恒定阳光解决AI能耗问题

快速阅读: 贝索斯提出在太空中建立数据中心的构想,利用不间断太阳能解决能源问题,但面临高昂的发射和维护成本及技术挑战。 贝索斯设想在地球大气层外利用持续阳光建立轨道数据中心。该计划承诺提供无限能源,不受云层和天气干扰的影响。然而,发射和维护 […]

发布时间:2025年10月11日
克瑞托斯庆祝Oriole火箭25年辉煌成就

克瑞托斯庆祝Oriole火箭25年辉煌成就

快速阅读: Kratos开发的Oriole火箭因2012年推出的TVC系统而性能大幅提升,完成多次高精度任务,支持全球多地点发射,助力高超音速研究,至今累计140次成功发射,确立行业领先地位。 Oriole的成功之旅因Kratos在2012 […]

发布时间:2025年10月11日
国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

国际首个,北邮第一代“卫星互联网防火墙”安全载荷成功发射

快速阅读: 北京邮电大学研发的“卫星互联网防火墙”安全载荷成功发射,实现物理层与网络层协同防护,具备10Gbps高并发流量检测能力,为卫星互联网安全提供重要保障。 感谢IT之家网友 tellMe 的线索投递! IT之家 9 月 19 日消息 […]

发布时间:2025年9月19日
ICEYE推出战术级太空情报系统ISR Cell

ICEYE推出战术级太空情报系统ISR Cell

快速阅读: ICEYE推出ISR Cell集装箱系统,使国防组织能现场获取近乎实时的太空ISR数据,加速高风险环境决策。系统已验证,提供更快、更可靠的情报,覆盖各决策层。预计2026年初交付,扩展军事客户基础。 美国加利福尼亚州洛杉矶(SP […]

发布时间:2025年9月13日
深学环形塑形技术助力天文观测,深化宇宙理解

深学环形塑形技术助力天文观测,深化宇宙理解

快速阅读: 科研团队开发的深度环路整形技术,显著提升了LIGO引力波观测站的控制精度和稳定性,降低了噪声水平,有助于天文学家更准确地研究宇宙动力学和形成过程,开启了下一代引力波科学的大门。 我们新开发的深度环路整形技术改进了引力波观测站的控 […]

发布时间:2025年9月5日
月球探索新突破!AI 助力撞击坑研究,效率提升惊人

月球探索新突破!AI 助力撞击坑研究,效率提升惊人

快速阅读: 中国科学院地球化学研究所发布“月球科学多模态专业大模型V2.0”,大幅提升月球地质研究效率,未来将向全球开放“数字月球”云平台。 在全球科技迅速发展的今天,中国科学家正借助人工智能的力量,推动月球科学研究的新进展。近日,在202 […]

发布时间:2025年9月1日
我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

我国风云卫星已与 17 个阿拉伯国家共享,推进多项气象合作

快速阅读: 中国将与阿联酋、约旦、埃及等国合作,共建气象卫星数据应用中心,研发灾害早期预警系统,开发气象人工智能模型,提升阿拉伯地区灾害性天气预报能力。 IT之家 8 月 29 日消息,据央视报道,我国将与阿联酋、约旦以及埃及等国家共同开展 […]

发布时间:2025年8月29日