Amazon 推出语音 AI 的新基础模型 Nova Sonic
快速阅读: 《您的故事》消息,亚马逊推出新AI模型“诺瓦声波”,可直接处理语音输入与输出,使对话更自然,适用于多行业AI应用,且成本低廉。同时发布生成视频模型“诺瓦卷轴1.1”。
亚马逊这家科技巨头推出了其最新专注于语音的人工智能(AI)模型“诺瓦声波”,旨在让AI应用中的对话更自然。不同于传统系统,最新的基础模型可以直接处理语音输入并生成语音输出,而传统系统分别处理语音识别、基于文本的处理和语音合成。
根据公司的博客文章,“构建支持语音的应用程序的传统方法涉及多个模型的复杂协调,例如将语音转换为文本的语音识别、理解并生成响应的大语言模型(LLMs),以及将文本转换回音频的文本转语音。”
不同于传统系统,最新的基础模型可以直接处理语音输入并生成语音输出,而传统系统分别处理语音识别、基于文本的处理和语音合成。“诺瓦声波”将这些功能集成在一个基础模型中,从而能够调整生成语音的风格和语气,处理诸如自然停顿、犹豫和中断等细微差别。
该模型可用于涵盖旅游、教育、医疗保健和娱乐等多个行业中涉及的自动客服和AI代理。此次发布正值多家人工智能巨头正在开发先进语音AI模型之际,其中包括由OpenAI的GPT-4o驱动的ChatGPT语音模式、谷歌的Gemini和Meta的语音助手,这些模型正让用户对自然流畅的交互体验抱有更高期待,相比之下,传统的助手如Alexa和Siri显得逊色。
该公司还声称,“诺瓦声波”是目前最经济高效的语音AI模型之一,成本仅为OpenAI GPT-4o的约20%。
亚马逊还推出了一款生成视频的模型“诺瓦卷轴1.1”,可以根据文本描述和可选参考图片生成短视频。该工具帮助用户制作营销、产品设计及社交媒体内容所需的视频。
(以上内容均由Ai生成)