Gemma 3n 可与 RAG 和函数调用库一起用于设备上推理

发布时间：2025年5月30日来源：szf

快速阅读: 据《InfoQ 公司》最新报道，谷歌推出多模态小型语言模型Gemma 3n，支持文本、图像、视频和音频输入，提供2B和4B参数变体。同时发布AI边缘设备功能调用SDK及AI边缘RAG库，开发者可微调模型或使用RAG增强应用数据。相关工具已在Android平台上线，未来扩展至其他平台。

谷歌宣布，Gemma 3n 已在最新推出的轻量级实时 Hugging Face 社区中提供预览版，并与许多之前发布的模型一同上线。Gemma 3n 是一款支持文本、图像、视频和音频输入的多模态小型语言模型。它还支持通过检索增强生成（RAG）进行微调以及利用新的 AI 边缘 SDK 进行功能调用。根据谷歌，Gemma 3n 提供两种参数变体：Gemma 3n 2B 和 Gemma 3n 4B，两者均支持文本和图像输入，音频支持即将推出。这标志着相比今年早些时候发布的非多模态 Gemma 3 1B（其处理速度可达每秒 2,585 个标记，仅需 529MB 内存）有了显著增长。谷歌指出，Gemma 3n 使用选择性参数激活，这是一种高效的参数管理方法。这意味着这两个模型包含的参数比在推理过程中活跃的 2B 或 4B 参数更多。

谷歌强调了开发人员可以对基础模型进行微调，并使用通过 Google AI Edge 提供的新量化工具进行转换和量化的可能性。作为微调的替代方案，这些模型可以在本地检索增强生成（RAG）中使用，以增强特定应用的数据语言模型。此功能由 AI 边缘 RAG 库驱动，目前仅在 Android 上可用，未来将在其他平台上推出。RAG 库使用一个包括数据导入、分块和索引、嵌入生成、信息检索和使用 LLM 生成响应的简单管道。它允许对 RAG 管道进行全面定制，包括支持自定义数据库、分块策略和检索函数。

除了 Gemma 3n，谷歌还宣布了 AI 边缘设备功能调用 SDK，目前也仅在 Android 上可用。该 SDK 能使模型调用特定功能以执行现实世界中的操作。要将大型语言模型与外部功能集成，您可以通过指定功能名称、描述（以指导 LLM 在何时使用该功能）以及所需参数来描述功能。此元数据被放入一个工具对象中，并通过生成模型构造函数传递给大型语言模型。功能调用 SDK 包括基于您提供的描述接收来自 LLM 的功能调用并发送执行结果回 LLM 的支持。

如果您想更详细地了解这些新工具，最好的起点是谷歌 AI 边缘画廊，这是一款展示多种模型并支持文本、图像和音频处理的实验性应用。

**关于作者**
塞尔吉奥·德·西莫内

以上内容经过整理与润色，力求更加通顺流畅。

(以上内容均由Ai生成)