谷歌Gemini2.5音频模型函数调用准确率超OpenAI

发布时间：2025年12月18日来源：szf

快速阅读: 据谷歌消息，其Gemini 2.5 Flash Native Audio模型完成重大升级，可直接处理语调与情感，无需语音转文字，指令遵循率提升至90%；在ComplexFuncBench测试中，准确率优于OpenAI竞品，现已接入Google AI Studio等平台供开发者调用。

谷歌本周宣布对其原生音频模型Gemini 2.5 Flash Native Audio进行重大更新，旨在推动AI交互从“文本转语音”迈向拟人化的实时对话。

此次升级的核心在于“原生”音频处理能力。该模型无需先将语音转为文字，可直接感知语调、情感与停顿，显著提升对话的自然度与流畅性。

数据显示，新版本对开发者指令的遵循率由84%提升至90%，在多步骤工作流中表现更为精准。在音频基准测试ComplexFuncBench中，其函数调用准确率达71.5%，优于OpenAI的gpt-realtime（66.5%），凸显其在实时语音代理领域的竞争力。

目前，该技术已全面接入Google AI Studio、Vertex AI、Gemini Live及Search Live。开发者可通过Gemini API调用升级版模型，利用其增强的多轮对话记忆与情绪感知能力，构建更可靠、更具人性化的AI助手。

(以上内容均由Ai生成)

引用自：AIbase人工智能资讯平台

你可能还想读