Microsoft 推出 Phi-4 多模态和 Phi-4-mini，与 OpenAI 的 GPT-4o 相匹配

发布时间：2025年2月27日来源：szf

快速阅读: 据《印度分析杂志》最新报道，微软发布了Phi家族的新成员——Phi-4-多模态和Phi-4-迷你。前者为56亿参数的多模态模型，已在多个基准测试中超越竞争对手；后者为38亿参数的文本模型，适用于长上下文任务。这两款模型现已在Azure AI库、Hugging Face和英伟达API目录中可用。微软计划将其整合至Windows应用及Copilot+ PC中，以提升用户体验。

微软已推出其Phi家族的最新小型语言模型（SLMs）成员：Phi-4-多模态和Phi-4-迷你。这些模型现在可在Azure AI库、Hugging Face以及英伟达API目录中使用。Phi-4-多模态是一款拥有56亿参数的模型，集成了语音、视觉和文本处理功能。“通过利用先进的跨模态学习技术，该模型能够实现更自然且上下文感知的交互，使设备能够同时理解并推理多种输入模式，”微软生成式人工智能副总裁陈伟柱表示。

去年，微软推出了参数量为1400亿的Phi-4模型。该模型在复杂推理能力方面表现出色。Phi-4-多模态模型支持包括文档分析和语音识别在内的应用。在多模态音频和视觉基准测试中，它超过了谷歌的Gemini 2 Flash和Gemini 1.5 Pro。微软声称，它的性能可与OpenAI的GPT-4相匹敌。该公司表示，该模型在语音相关任务中表现强劲，在自动语音识别和语音翻译方面超越了WhisperV3和SeamlessM4T-v2-Large等模型。它在Hugging Face OpenASR排行榜上的词错误率为6.14%，位列第一。该模型在文档和图表理解、光学字符识别（OCR）及视觉科学推理方面也展现了竞争力。

另一方面，Phi-4-迷你是一款参数量为38亿的文本模型，适用于推理、编码和长上下文任务。它支持长度达128,000个标记的序列，并提供高效的处理，减少计算需求。它支持函数调用，允许与外部工具和API集成。这两个模型都适用于资源受限的计算环境。它们可以通过ONNX运行时进行优化，以实现跨平台可用性和更低的延迟。微软正在将其生态系统中的这些模型纳入其中，包括Windows应用程序和Copilot+ PC。微软Windows应用科学部门副总裁兼杰出工程师维韦克·普拉迪普表示：“Copilot+ PC将基于Phi-4多模态的功能，提供微软先进SLMs的强大功能，而无需消耗过多能源。”

开发人员可以在多个平台上访问Phi-4-多模态和Phi-4-迷你，并探索它们在金融、医疗保健和汽车技术等多个行业中的应用。

(以上内容均由Ai生成)