苹果上线FastVLM：5分钟体验85倍速视觉AI，数据留设备内

发布时间：2025年9月2日来源：szf

快速阅读: 苹果发布视觉语言模型FastVLM，基于Apple Silicon芯片，处理速度提升85倍，体积缩小3倍，支持实时高分辨率图像处理，现已开源并在Hugging Face上线。

苹果几个月前发布的视觉语言模型 FastVLM 现已向公众开放，用户可以在搭载 Apple Silicon 芯片的 Mac 上直接体验这项革命性技术。FastVLM 是一种能够提供近乎即时高分辨率图像处理的视觉语言模型，基于 Apple 专为 Apple Silicon 设计的开放 ML 框架 MLX 构建。与同类模型相比，FastVLM 在视频字幕处理速度上提升了85倍，同时体积缩小了3倍以上。

苹果在完善项目后，将 FastVLM 开源至 GitHub，并登陆 Hugging Face 平台。用户现在可以直接在浏览器中加载轻量级的 FastVLM-0.5B 版本，无需复杂安装过程即可体验其强大功能。实测显示，在16GB M2Pro MacBook Pro 上，模型加载需要几分钟时间。加载完成后，模型能够实时准确描述用户的外貌、背景环境、面部表情以及视野中的各种物体。

该模型支持多种预设提示，用户可以要求模型用一句话描述所见场景、识别衣物颜色、读取可见文本内容、分析情感和动作、识别手中物体。此外，用户还可结合虚拟摄像头应用，观察模型如何即时详细描述复杂的多场景视频内容。

FastVLM 的一大亮点是完全在浏览器本地运行，数据永不离开设备，甚至支持离线使用。这种设计为可穿戴设备和辅助技术应用提供了理想解决方案，轻便性和低延迟特性为更广泛的应用场景奠定了基础。目前浏览器演示使用的是5亿参数的轻量级版本，FastVLM 系列还包含15亿和70亿参数的更强大变体，能够提供更优异的性能表现，尽管这些大型模型可能无法直接在浏览器中运行。

(以上内容均由Ai生成)