Gemma 3n 可与 RAG 和函数调用库一起用于设备上推理
快速阅读: 据《InfoQ 公司》最新报道,谷歌推出多模态小型语言模型Gemma 3n,支持文本、图像、视频和音频输入,提供2B和4B参数变体。同时发布AI边缘设备功能调用SDK及AI边缘RAG库,开发者可微调模型或使用RAG增强应用数据。相关工具已在Android平台上线,未来扩展至其他平台。
谷歌宣布,Gemma 3n 已在最新推出的轻量级实时 Hugging Face 社区中提供预览版,并与许多之前发布的模型一同上线。Gemma 3n 是一款支持文本、图像、视频和音频输入的多模态小型语言模型。它还支持通过检索增强生成(RAG)进行微调以及利用新的 AI 边缘 SDK 进行功能调用。根据谷歌,Gemma 3n 提供两种参数变体:Gemma 3n 2B 和 Gemma 3n 4B,两者均支持文本和图像输入,音频支持即将推出。这标志着相比今年早些时候发布的非多模态 Gemma 3 1B(其处理速度可达每秒 2,585 个标记,仅需 529MB 内存)有了显著增长。谷歌指出,Gemma 3n 使用选择性参数激活,这是一种高效的参数管理方法。这意味着这两个模型包含的参数比在推理过程中活跃的 2B 或 4B 参数更多。
谷歌强调了开发人员可以对基础模型进行微调,并使用通过 Google AI Edge 提供的新量化工具进行转换和量化的可能性。作为微调的替代方案,这些模型可以在本地检索增强生成(RAG)中使用,以增强特定应用的数据语言模型。此功能由 AI 边缘 RAG 库驱动,目前仅在 Android 上可用,未来将在其他平台上推出。RAG 库使用一个包括数据导入、分块和索引、嵌入生成、信息检索和使用 LLM 生成响应的简单管道。它允许对 RAG 管道进行全面定制,包括支持自定义数据库、分块策略和检索函数。
除了 Gemma 3n,谷歌还宣布了 AI 边缘设备功能调用 SDK,目前也仅在 Android 上可用。该 SDK 能使模型调用特定功能以执行现实世界中的操作。要将大型语言模型与外部功能集成,您可以通过指定功能名称、描述(以指导 LLM 在何时使用该功能)以及所需参数来描述功能。此元数据被放入一个工具对象中,并通过生成模型构造函数传递给大型语言模型。功能调用 SDK 包括基于您提供的描述接收来自 LLM 的功能调用并发送执行结果回 LLM 的支持。
如果您想更详细地了解这些新工具,最好的起点是谷歌 AI 边缘画廊,这是一款展示多种模型并支持文本、图像和音频处理的实验性应用。
**关于作者**
塞尔吉奥·德·西莫内
以上内容经过整理与润色,力求更加通顺流畅。
(以上内容均由Ai生成)