Microsoft 的新 Phi-4 AI 模型在小封装中集成了强大的性能

快速阅读: 据《VentureBeat 公司》最新报道，微软发布了新型AI模型菲-4，包括多模态和迷你版本，能在较小计算能力下处理文本、图像和语音。菲-4多模态在多项任务中表现优异，而迷你版在数学和编码任务上与更大模型相当。这些模型提高了效率和普及性，适用于标准设备和边缘计算，降低了成本并提升了隐私保护。订阅通讯获取更多信息。

加入我们的每日和每周通讯，获取行业领先的人工智能报道的最新更新和独家内容。了解微软公司推出了一类新的高效人工智能模型，这些模型能够同时处理文本、图像和语音，且所需计算能力远低于现有系统。今天发布的菲-4模型代表了小型语言模型（SLM）开发的一个突破，提供了此前仅由更大规模人工智能系统才能实现的功能。菲-4多模态，一个拥有56亿参数的模型，以及菲-4迷你，一个拥有38亿参数的模型，在某些任务上表现优于同样大小的竞争对手，甚至在某些任务上与规模是其两倍的模型性能相当，根据微软公司的技术报告显示。

“这些模型旨在为开发者提供先进的AI功能，”微软公司生成式AI副总裁魏朱·陈表示。“菲-4多模态能够同时处理语音、视觉和文本输入，为创建创新和情境感知的应用程序打开了新的可能性。”

这一技术成就出现在企业越来越多地寻求能够在标准硬件或“边缘计算”——直接在设备上而非云数据中心运行的AI模型之时，以降低成本并减少延迟，同时保持数据隐私。微软公司如何构建了一个无所不能的小型AI模型菲-4多模态的独特之处在于其新颖的“LoRA混合技术”，使其能够在单一模型中处理文本、图像和语音输入。“通过利用LoRA混合技术，菲-4多模态扩展了多模态能力，同时最小化了不同模式之间的干扰，”研究论文指出。“这种方法实现了无缝集成，并确保了涉及文本、图像和语音/音频的任务中的一致性能。”

这种创新使得模型能够在不降低性能的情况下，维持强大的语言能力，并添加视觉和语音识别功能。该模型在Hugging Face OpenASR排行榜上以6.14%的词错误率位居榜首，超过了专门的语音识别系统如WhisperV3。它还在涉及数学和科学推理的视觉任务中表现出竞争力。

紧凑的AI，巨大的影响：菲-4迷你设定新的性能标准

尽管体积小巧，菲-4迷你在基于文本的任务中展示了卓越的能力。微软公司报告称，该模型“在各种语言理解基准测试中超越了同等大小的模型，并与规模大一倍的模型持平”。特别值得注意的是该模型在数学和编码任务上的表现。根据研究论文，“菲-4迷你由32个带有3072隐藏状态大小的Transformer层组成”，并结合了组查询注意力以优化长上下文生成的内存使用。在GSM-8K数学基准测试中，菲-4迷你获得了88.6%的分数，超过了大多数80亿参数模型，而在MATH基准测试中达到了64%，显著高于同类大小的竞争者。

“对于数学基准测试，该模型以显著优势超越了同等大小的模型，有时超过20分。它甚至超越了规模大一倍的模型的成绩，”技术报告指出。

变革性部署：菲-4的实际效率

容量，一个人工智能答案引擎，已经利用菲系列来提升其平台的效率和准确性。容量的产品负责人史蒂夫·弗雷德里克森在一份声明中表示：“从最初的实验来看，真正让我们印象深刻的是菲的准确性和部署的简便性，即使在定制之前也是如此。自那以后，我们能够提高准确性和可靠性，同时保持我们一开始就重视的成本效益和可扩展性。”

容量报告称，与竞争工作流程相比，成本节省了4.2倍，同时实现了相同的或更好的定性结果用于预处理任务。

无界限的AI：微软公司的菲-4模型将高级智能带入任何地方

多年来，人工智能的发展一直遵循着一个单一的理念：越大越好。更多的参数，更大的模型，更高的计算需求。但微软公司的菲-4模型挑战了这一假设，证明了力量不仅关乎规模，更关乎效率。菲-4多模态和菲-4迷你不是为了科技巨头的数据中心，而是为了现实世界——在那里计算能力有限，隐私问题至关重要，AI需要在没有持续连接到云端的情况下无缝工作。

这些模型虽小，却具有重要意义。菲-4多模态将语音、视觉和文本处理整合到一个系统中而不牺牲准确性，而菲-4迷你则在数学、编码和推理性能方面与规模大一倍的模型相匹敌。这不仅仅是让AI更加高效的问题；更是让它更加普及的问题。

微软公司将菲-4定位为广泛采用的对象，通过Azure AI工厂、Hugging Face和Nvidia API目录提供。目标很明确：AI不应该被昂贵的硬件或庞大的基础设施所限制，而是可以在标准设备上运行，在网络边缘运行，并在计算能力稀缺的行业中运行。日本AI公司Headwaters Co., Ltd.的董事西岛正也亲眼见证了这一影响。“边缘AI即使在网络连接不稳定或保密性至关重要的环境中也表现出色，”他在一份声明中说。这意味着AI可以在工厂、医院、自动驾驶汽车等地方发挥作用——这些地方需要实时智能，而传统的基于云的模型往往无法满足需求。

从根本上讲，菲-4代表了一种思维方式的转变。AI不仅仅是为了那些拥有最大服务器和最深口袋的人的工具。如果设计得当，它可以适用于任何地方，为任何人服务。菲-4最革命性的地方不在于它可以做什么，而在于它可以在哪里做。

每日商业用例洞见

如果你想给老板留下深刻印象，VB每日可以帮到你。我们为你提供有关公司如何使用生成式AI的内部消息，从监管变化到实际部署，以便你可以分享见解以获得最大的投资回报。现在订阅查看我们的隐私政策。

(以上内容均由Ai生成)