谷歌的新 AI 模型 Gemma 3 为创意作家大放异彩,但在其他地方却有所欠缺
快速阅读: 据《解密》称,谷歌发布Gemma 3,一款轻量级但强大的开源AI模型,适合创意写作且支持多语言,但在长文档分析和敏感话题处理上有限制。模型开源,灵活部署,适合个人开发者和小型企业,但不擅长复杂推理任务。
艺术、时尚与娱乐中心Decrypt。
探索SCENE
周二,谷歌发布了Gemma 3,这是一个基于Gemini 2.0的开源AI模型。尽管体积小巧,但其表现出令人惊讶的强大性能。
图片来源:谷歌
谷歌的基准测试表明,Gemma 3在与需要更多计算资源的大型模型竞争时表现得相当出色。
谷歌表示,这个新模型系列是“与Gemini前沿模型家族共同设计的”,共有四种尺寸,参数范围从10亿到270亿不等。
谷歌将其定位为一种实用解决方案,适用于需要直接在手机、笔记本电脑和工作站等设备上部署AI的开发人员。
“这是我们迄今为止最先进的、便携的且负责任地开发的开源模型,”谷歌DeepMind研究副总裁克莱门特·法拉贝特和主任特里斯·沃肯廷周三在公告中写道。
尽管规模相对较小,Gemma 3在LMArena排行榜上击败了包括Meta的Llama-405B、DeepSeek-V3、阿里巴巴的Qwen 2.5 Max和OpenAI的o3-mini在内的更大模型。
其27B指令调整版本在LMSys聊天机器人竞技场的Elo评分中获得1339分,位列总体前十。
Gemma 3也是多模态的——在其较大的变体中处理文本、图像,甚至短小视频。
其扩展上下文窗口为128,000个标记(1B版本为32,000个),远超前代Gemma 2的8,000个标记限制,使其能够一次性处理和理解更多的信息。
该模型的全球覆盖范围扩展到超过140种语言,其中35种语言开箱即用。这使得它成为开发人员为国际受众构建应用程序的一种可行方案,无需为不同地区维护独立的模型。
谷歌称,自去年发布以来,Gemma家族已累计下载超过1亿次,开发者创建了超过60,000个变体。
由社区创建的“Gemmaverse”——围绕Gemma家族模型构建的完整生态系统——包括面向东南亚、保加利亚的定制版本,以及名为OmniAudio的定制文本转音频模型。
开发人员可通过Vertex AI、Cloud Run、Google GenAI API或本地环境部署Gemma 3应用,满足各类基础设施需求的灵活性。
测试Gemma
我们将Gemma 3通过一系列现实世界的测试来评估其在不同任务中的表现。以下是我们在每个领域的发现。
**创意写作**
我们对Gemma 3的创意写作能力感到意外。尽管仅有270亿个参数,它仍成功超越了Claude 3.7 Sonnet,后者近期在我们的创意写作测试中击败了Grok-3。而且它以很大的优势获胜。
Gemma 3生成的故事长度超过了我们测试的所有模型,除了专门设计用于长篇叙事的Longwriter。
质量并未因数量而妥协——写作引人入胜且富有原创性,避免了多数AI模型常有的程式化开头。
Gemma还非常擅长创造细节丰富、沉浸感强的世界,并具有强大的叙事连贯性。角色名称、地点和描述都自然地融入故事背景中。
这对创意作家而言是一大优势,因为其他模型有时会混淆文化引用或忽略这些细节,从而破坏沉浸感。Gemma 3在整个过程中保持了一致性。
较长的故事结构有助于自然的故事发展,叙述段落间的过渡流畅。该模型非常擅长以一种让人觉得可信的方式描述行动、感觉、想法和对话。
当要求加入一个转折性结局时,它成功实现了这一点,未破坏故事的内在逻辑。直到现在,其他所有模型在试图结束故事时都会稍微搞砸一点。不是Gemma。
对于希望借助AI助手创作适合工作场所的虚构作品的创意作家而言,Gemma 3似乎是当前的最佳选择。
你可以在我们的GitHub仓库中阅读我们的提示和所有回复。
**摘要与信息提取**
虽然其创意写作十分优秀,但Gemma 3在文档分析任务上遇到了严重问题。
我们上传了一份47页的IMF文件至谷歌AI工作室,系统虽接受文件,但模型未能完成分析,任务中途停滞。多次尝试结果相同。
我们尝试了另一种方式,这种方式在与Grok-3配合使用时有效——直接将文档内容复制粘贴到界面中,但同样遇到了问题。
该模型完全无法处理和总结长篇内容。
值得注意的是,这一限制可能与谷歌AI工作室的实现相关,而非Gemma 3模型本身的问题。
在本地运行模型或许能改善文档分析效果,但依赖谷歌官方界面的用户目前很可能面临这些限制。
**敏感话题**
在AI聊天机器人界面的一项独特功能中,谷歌AI工作室提供了非常严格的内置内容过滤器,可通过一系列滑块进行访问。
我们通过请求涉及假设不道德情境(如诱骗已婚女性)的可疑建议来测试Gemma的边界,模型明确拒绝遵守。同样,当要求生成一部虚构小说的成人内容时,它拒绝生产任何带有暗示性的内容。
我们尝试通过关闭谷歌的参数来调整或绕过这些审查过滤器,但未能成功。
理论上,谷歌AI工作室的“安全设置”控制着模型在生成可能被视为骚扰、仇恨言论、色情或危险的内容时的限制程度。即便所有限制都已关闭,该模型依然坚决拒绝参与包含争议性、暴力或冒犯性内容的对话——即使这些内容显然是为了虚构的创作目的。最终,这些控制措施实际上没有任何效果。希望在合法创作语境下处理敏感话题的用户,可能需要寻找绕过模型限制的方法,或者精心设计提示词。总体而言,对于愿意使用Google Studio的用户而言,Gemma 3的内容限制与ChatGPT相当,有时甚至显得过于严格,具体取决于应用场景。那些愿意本地部署的人不会面临这些问题。对于需要良好AI界面且希望模型相对开放的人来说,最佳选择似乎是Grok-3,其限制明显较少。其他所有闭源模型同样拒绝了此类请求。你可以在我们的GitHub仓库查看我们的提示词及全部回复。
**多模态能力**
Gemma 3本质上具备多模态能力,这意味着它能够原生处理和理解图像数据,而无需依赖单独的视觉模型。在我们的测试中,我们遇到了一些平台限制。例如,谷歌的AI Studio不允许我们直接用模型处理图像数据。然而,我们借助Hugging Face的界面测试了其图像处理功能——该界面包含了一个较小版本的Gemma 3。该模型展示了对图像的坚实理解,在大多数情况下成功识别关键要素并给出相关分析。它能够以合理的准确性识别照片中的对象、场景和一般内容。然而,来自Hugging Face的小型模型变体在详细的视觉分析方面显示出局限性。在我们的一个测试中,它未能准确解读一张金融图表,产生比特币在2024年价格约为68,618美元的错误认知——这一信息实际上并未显示在图像中,但很可能来自其训练数据。尽管Gemma 3的多模态能力是可用的,但使用较小的模型可能无法达到更专业的视觉模型(即使是开源的如Llama 3.2 Vision、LlaVa或Phi Vision)的精度,特别是在处理图表、图形或需要精细视觉分析的内容时。
**非数学推理**
正如传统语言模型所预期的那样,没有专门推理能力的Gemma 3在面对需要复杂逻辑推导的问题时,明显表现出局限性,而不是简单的令牌预测。我们用BigBENCH数据集中的常规谜题测试了它,模型未能从提供的信息中识别关键线索或得出逻辑结论。有趣的是,当我们尝试通过逐步推理引导模型(本质上是要求它“一步一步地思考”)时,它触发了暴力检测机制并拒绝提供任何响应。你可以在我们的GitHub仓库查看我们的提示词及全部回复。
**这个模型适合你吗?**
根据您的具体需求和使用场景,您可能会喜欢或讨厌Gemma 3。
对于创意作家来说,Gemma 3是一个出色的选择。它创作详尽、连贯且吸引人的故事的能力超过了包括Claude 3.7、Grok-3和GPT-4.5在内的某些较大的商业模型,且条件最少。如果您撰写小说、博客文章或其他符合工作安全标准的创意内容,这款模型在零成本下提供了卓越的质量,并能在可访问的硬件上运行。
开发人员和创作者在构建多语言应用程序时会欣赏Gemma 3支持超过140种语言。这使得创建区域特定服务或全球应用程序变得可行,而无需维护多个语言特定模型。
小型企业和初创公司也可以享受Gemma 3的效率。在单一GPU上运行高级AI功能,大大降低了应用AI解决方案的入门门槛,而无需大规模基础设施投资。
Gemma 3的开源性质提供了灵活性,这是像Claude或ChatGPT这样的封闭模型无法比拟的。开发人员可以为其特定领域进行微调,修改其行为,或将其实深度集成到现有系统中,而无需API限制或订阅费用。对于有严格隐私要求的应用程序,该模型可以在本地硬件上完全脱机运行。
然而,需要分析长篇文档或处理敏感话题的用户将遇到令人沮丧的限制。需要微妙推理或处理有争议材料的研究任务更适合于提供更大灵活性的较大封闭源模型。它也不擅长推理任务、编码或社会现在期望AI模型擅长的任何复杂任务。因此,不要指望它为您生成游戏、改进代码或在创意文本写作之外的任何事情上表现出色。
总体而言,Gemma 3不会取代每项任务中最先进的专有或开源推理模型。然而,其性能、效率和可定制性的结合使其成为热爱尝试新事物的AI爱好者以及希望控制和本地运行自己模型的开源粉丝的一个非常有趣的选择。
(以上内容均由Ai生成)