Hume 推出文本转语音模型 Octave，可根据您的提示按需生成情绪化、可调整的 AI 语音

快速阅读: 据《VentureBeat 公司》称，赫米AI推出了一款名为“八度音阶”的新文本转语音模型，可生成逼真且具情感细节的语音。该模型基于大规模语言模型训练，能理解上下文并调整语气。八度音阶支持多种内容形式，包括有声读物、播客和视频游戏角色对话。赫米AI提供了不同的订阅计划，价格低于竞争对手ElevenLabs。该公司还开发了语音克隆功能，以增强灵活性和控制。

订阅我们的每日和每周通讯，获取关于行业领先的AI覆盖的最新资讯和独家内容。了解更多纽约市初创公司赫米AI两年前浮出水面，并在此基础上筹集了数百万美元的资金，其技术能够为企业的应用程序创建情感化的AI声音。如今，它通过一个名为“全能文本和语音引擎”，简称八度音阶的新大型语言和语音模型，将服务提升到一个新的水平。该模型旨在生成逼真且具有情感细微差别的语音，适用于从有声读物到预录制视频游戏角色对话和电影/电视/视频等多种形式的内容。赫米宣称八度音阶是首个由大规模语言模型（LLM）驱动的文本转语音系统，该模型不仅基于文本训练，还基于语音和情感标记训练，使其能够理解上下文中的词汇并相应地调整语气、节奏和语调——用户可以通过文本提示在句子级别上进行调整。

如今，它通过一个名为“全能文本和语音引擎”，简称八度音阶的新大型语言和语音模型，将服务提升到一个新的水平。该模型旨在生成逼真且具有情感细微差别的语音，适用于从有声读物到预录制视频游戏角色对话和电影/电视/视频等多种形式的内容。“我们推出了第一个用于文本转语音的LLM——一个理解上下文中词汇的模型，预测正确的感情、节奏、语调和强调，使语音听起来比以往任何时候都更像人类，”赫米AI的联合创始人兼首席执行官艾伦·考恩在接受《VentureBeat》采访时说。

如今，它通过一个名为“全能文本和语音引擎”，简称八度音阶的新大型语言和语音模型，将服务提升到一个新的水平。该模型旨在生成逼真且具有情感细微差别的语音，适用于从有声读物到预录制视频游戏角色对话和电影/电视/视频等多种形式的内容。八度音阶的能力超越了基本的声音生成。它可以仅从剧本中解读角色特征和风格，调整声音的抑扬顿挫以匹配隐含的情感。一句讽刺的话会被讽刺地说出来，一句惊慌失措的句子会听起来很急迫，一句低语的秘密会被压低——所有这些都不需要明确的指示。

此外，如果用户不喜欢生成的声音或想要调整它，他们可以通过自然语言通过简单地向八度音阶输入文本指令来精细调整，例如“更快乐、更悲伤、更沮丧、更愤怒、更讽刺、更真诚”等。“你可以描述一个角色——比如一个讽刺的中世纪农夫——模型会立即创建那种声音，根据你的指令调整愤怒、悲伤或快乐等情绪，”考恩补充道。“语音调节可以在句子级别进行，但你也可以调整句子的一部分，指示模型传达微妙的情绪，如轻微的挫败感混合着幽默或恼怒。”

该模型还会考虑超出单个句子的上下文。“与传统逐字处理文本的模型不同，我们的模型会考虑整个段落，捕捉上下文以提供更自然和情感准确的语音，”他解释道。虽然目前发布的版本专注于英语语音，但八度音阶也支持西班牙语，并预计在未来不久会扩展其语言能力。

为内容创作定制八度音阶专为内容创作者和媒体制作而设计，适用于有声读物、播客、视频游戏角色和视频配音。“这个新模型是为离线文本转语音设计的——非常适合有声读物、播客、视频配音和视频游戏角色——创作者需要真实的角色特定声音，”考恩解释道。然而，用户必须通过赫米的网站在其项目页面或通过应用程序编程接口（API）访问它。所谓的“离线”部分是指该模型被设计成生成可以添加到视频或有声读物等项目的独立音频文件。它并不设计来进行实时对话，尽管理论上可以通过将文本查询输入网站来实现这一点。赫米的API允许开发者每分钟最多向新的八度音阶模型发起50个请求，每次请求的最大文本长度为5,000个字符，描述最多为1,000个字符。每个请求可以生成多达五个输出，支持的音频格式包括MP3、WAV和PCM。赫米之前的EVI系列模型支持流式、实时的双向交互，并将继续可用和发展。

赫米AI提供基于订阅的定价模式，分为免费选项、创作者计划、创作者专业版和企业版。以下是简要的价格概述：

– 免费（每月0元）- 每月10,000个字符的文本转语音（约10分钟），自定义语音无限制。
– 入门级（每月3元）- 每月30,000个字符（约30分钟），支持最多20个项目。
– 创作者（每月10元）- 每月100,000个字符（约100分钟），超出部分按每1,000个字符0.20元计费，支持最多1,000个项目。
– 专业版（每月50元）- 每月500,000个字符（约500分钟），超出部分按每1,000个字符0.15元计费，支持最多3,000个项目。
– 扩展版（每月150元）- 每月2,000,000个字符（约2,000分钟），超出部分按每1,000个字符0.13元计费，支持最多10,000个项目。
– 商业版（每月900元）- 每月10,000,000个字符（约10,000分钟），超出部分按每1,000个字符0.10元计费，支持最多20,000个项目。
– 企业版（定制价格）- 无限使用，定制法律条款，安全保证，大幅折扣批量定价，优先支持。

总体而言，赫米强调八度音阶TTS的定价大约仅为ElevenLabs的一半，显示出在文本转语音领域的竞争正在加剧。此外，赫米AI进行了一项盲测比较研究，邀请了180名人评委对八度音阶和ElevenLabs进行基准测试。结果显示，在120个多样化的提示下，八度音阶在音质（71.6%的试验）、自然度（51.7%的试验）以及语音是否符合所需声音描述方面（57.7%的试验）均优于ElevenLabs。

为了进一步评估其性能，赫米AI还推出了“表达式TTS竞技场”，这是一个公开的基准测试，旨在测试AI模型如何处理更长、更具表现力的语音——这是以前的TTS基准测试大多忽略的领域。数十万亿的语言标记与依赖有限语音数据集的传统文本转语音系统不同，八度音阶TTS建立在一个经过数十万亿语言标记训练的大规模语言模型（LLM）之上。“传统的文本转语音模型是在有限的语音数据上训练的，但我们的模型是建立在一个经过数十万亿标记训练的LLM之上，这使它能够推理、思考和从文本中推断情感，”考恩说。

与依赖有限语音数据集的传统文本转语音系统不同，八度音阶TTS建立在一个经过数十万亿语言标记训练的大规模语言模型（LLM）之上。该模型使用数百万小时的公共长篇语音数据和赫米AI的专有数据集进行了训练，这些数据集是由调查参与者录制的新声音。“我们收集了人们通过网络摄像头录制自己的数据，自然地对视频做出反应，讲故事，与他人交谈，包括朋友和家人，以捕捉广泛的情感表达，”考恩说。这种广泛的训练使模型能够推断情感背景并遵循详细的指导，创造出符合特定角色描述和属性的声音。

八度音阶TTS在长篇内容中保持角色声音的一致性。“通过我们的平台，你可以为有声读物中的每个角色生成独特的声音——比如一个中年兽人——并在整个故事中保持该角色的声音，”考恩说。这一功能得到了赫米AI“项目”页面的支持，该页面通过自动分割文本来处理长篇内容，同时在整个章节中保持角色一致性。

赫米在其网站和API中内置了技术防护栏，禁止创建逼真的儿童声音和模仿特定个体，除此之外，它开放用于广泛的内容和主题，包括可能不适合工作的场景，如流行浪漫小说中的场景。“我们给予开发者自由，允许跨越广泛的人类体验的内容，尽管我们限制创建逼真的儿童声音和模仿特定个体，”考恩解释道。此外，考恩表示，公司可以根据特定客户的要求调整这些防护栏，例如一家儿童图书出版商希望为其儿童有声读物创建声音。赫米AI正在开发即将推出的语音克隆功能，该功能将允许用户仅从5秒的音频复制声音。公司在公开推出该功能之前正在开发保障措施以确保其伦理使用。

凭借其情境感知、情感表达和角色定制的结合，八度音阶TTS旨在为内容创作者提供更多控制和灵活性，提供既逼真又情感丰富的声音。

(以上内容均由Ai生成)