Amazon 推出语音 AI 的新基础模型 Nova Sonic

发布时间：2025年4月9日来源：szf

快速阅读: 《您的故事》消息，亚马逊推出新AI模型“诺瓦声波”，可直接处理语音输入与输出，使对话更自然，适用于多行业AI应用，且成本低廉。同时发布生成视频模型“诺瓦卷轴1.1”。

亚马逊这家科技巨头推出了其最新专注于语音的人工智能（AI）模型“诺瓦声波”，旨在让AI应用中的对话更自然。不同于传统系统，最新的基础模型可以直接处理语音输入并生成语音输出，而传统系统分别处理语音识别、基于文本的处理和语音合成。

根据公司的博客文章，“构建支持语音的应用程序的传统方法涉及多个模型的复杂协调，例如将语音转换为文本的语音识别、理解并生成响应的大语言模型（LLMs），以及将文本转换回音频的文本转语音。”

不同于传统系统，最新的基础模型可以直接处理语音输入并生成语音输出，而传统系统分别处理语音识别、基于文本的处理和语音合成。“诺瓦声波”将这些功能集成在一个基础模型中，从而能够调整生成语音的风格和语气，处理诸如自然停顿、犹豫和中断等细微差别。

该模型可用于涵盖旅游、教育、医疗保健和娱乐等多个行业中涉及的自动客服和AI代理。此次发布正值多家人工智能巨头正在开发先进语音AI模型之际，其中包括由OpenAI的GPT-4o驱动的ChatGPT语音模式、谷歌的Gemini和Meta的语音助手，这些模型正让用户对自然流畅的交互体验抱有更高期待，相比之下，传统的助手如Alexa和Siri显得逊色。

该公司还声称，“诺瓦声波”是目前最经济高效的语音AI模型之一，成本仅为OpenAI GPT-4o的约20%。

亚马逊还推出了一款生成视频的模型“诺瓦卷轴1.1”，可以根据文本描述和可选参考图片生成短视频。该工具帮助用户制作营销、产品设计及社交媒体内容所需的视频。

(以上内容均由Ai生成)