Microsoft 推出 Phi-4 多模态和 Phi-4-mini,与 OpenAI 的 GPT-4o 相匹配
快速阅读: 据《印度分析杂志》最新报道,微软发布了Phi家族的新成员——Phi-4-多模态和Phi-4-迷你。前者为56亿参数的多模态模型,已在多个基准测试中超越竞争对手;后者为38亿参数的文本模型,适用于长上下文任务。这两款模型现已在Azure AI库、Hugging Face和英伟达API目录中可用。微软计划将其整合至Windows应用及Copilot+ PC中,以提升用户体验。
微软已推出其Phi家族的最新小型语言模型(SLMs)成员:Phi-4-多模态和Phi-4-迷你。这些模型现在可在Azure AI库、Hugging Face以及英伟达API目录中使用。Phi-4-多模态是一款拥有56亿参数的模型,集成了语音、视觉和文本处理功能。“通过利用先进的跨模态学习技术,该模型能够实现更自然且上下文感知的交互,使设备能够同时理解并推理多种输入模式,”微软生成式人工智能副总裁陈伟柱表示。
去年,微软推出了参数量为1400亿的Phi-4模型。该模型在复杂推理能力方面表现出色。Phi-4-多模态模型支持包括文档分析和语音识别在内的应用。在多模态音频和视觉基准测试中,它超过了谷歌的Gemini 2 Flash和Gemini 1.5 Pro。微软声称,它的性能可与OpenAI的GPT-4相匹敌。该公司表示,该模型在语音相关任务中表现强劲,在自动语音识别和语音翻译方面超越了WhisperV3和SeamlessM4T-v2-Large等模型。它在Hugging Face OpenASR排行榜上的词错误率为6.14%,位列第一。该模型在文档和图表理解、光学字符识别(OCR)及视觉科学推理方面也展现了竞争力。
另一方面,Phi-4-迷你是一款参数量为38亿的文本模型,适用于推理、编码和长上下文任务。它支持长度达128,000个标记的序列,并提供高效的处理,减少计算需求。它支持函数调用,允许与外部工具和API集成。这两个模型都适用于资源受限的计算环境。它们可以通过ONNX运行时进行优化,以实现跨平台可用性和更低的延迟。微软正在将其生态系统中的这些模型纳入其中,包括Windows应用程序和Copilot+ PC。微软Windows应用科学部门副总裁兼杰出工程师维韦克·普拉迪普表示:“Copilot+ PC将基于Phi-4多模态的功能,提供微软先进SLMs的强大功能,而无需消耗过多能源。”
开发人员可以在多个平台上访问Phi-4-多模态和Phi-4-迷你,并探索它们在金融、医疗保健和汽车技术等多个行业中的应用。
(以上内容均由Ai生成)