谷歌Gemini2.5音频模型函数调用准确率超OpenAI
快速阅读: 据谷歌消息,其Gemini 2.5 Flash Native Audio模型完成重大升级,可直接处理语调与情感,无需语音转文字,指令遵循率提升至90%;在ComplexFuncBench测试中,准确率优于OpenAI竞品,现已接入Google AI Studio等平台供开发者调用。
谷歌本周宣布对其原生音频模型Gemini 2.5 Flash Native Audio进行重大更新,旨在推动AI交互从“文本转语音”迈向拟人化的实时对话。
此次升级的核心在于“原生”音频处理能力。该模型无需先将语音转为文字,可直接感知语调、情感与停顿,显著提升对话的自然度与流畅性。
数据显示,新版本对开发者指令的遵循率由84%提升至90%,在多步骤工作流中表现更为精准。在音频基准测试ComplexFuncBench中,其函数调用准确率达71.5%,优于OpenAI的gpt-realtime(66.5%),凸显其在实时语音代理领域的竞争力。
目前,该技术已全面接入Google AI Studio、Vertex AI、Gemini Live及Search Live。开发者可通过Gemini API调用升级版模型,利用其增强的多轮对话记忆与情绪感知能力,构建更可靠、更具人性化的AI助手。
(以上内容均由Ai生成)
引用自:AIbase人工智能资讯平台