Google Gemini：您需要了解的有关生成式 AI 模型的所有信息

快速阅读: 据《TechCrunch 技术紧缩》最新报道，随着Gemini Live的启用，用户能在聊天时实时打断并提问，Gemini将适应语调。未来，Gemini有望具备视觉理解能力，通过照片或视频回应环境。Gemini Live还处于初期阶段，生成图像的Imagen 3模型能更准确地理解文本提示。此外，Gemini在多款Google设备上增强功能，如Google TV流媒体器和Nest恒温器。尽管如此，Gemini仍面临一些技术挑战，如编码偏差和事实编造问题。

随着Gemini Live的启用，您可以在聊天机器人说话时（使用多种新声音之一）随时打断它以提出澄清问题，它会实时适应您的语调。未来，Gemini有望获得视觉理解能力，使其能够通过照片或智能手机摄像头捕捉到的视频看到并回应您的周围环境。您可以阅读我们对Gemini Live的评测。剧透警告：我们认为这个功能还需要一段时间才能变得非常实用——但目前确实还处于初期阶段。

使用Imagen 3生成图像

Gemini用户可以使用Google内置的Imagen 3模型生成艺术品和图像。使用Imagen 3生成图像Google表示，与前代Imagen 2相比，Imagen 3能更准确地理解文本提示并将其转化为图像，而且生成的图像更加“富有创意和细节”。此外，该模型产生的伪影和视觉错误较少（至少根据Google的说法），并且是迄今为止生成文本效果最好的Imagen模型。使用Imagen 3生成图像

早在2024年2月，由于用户抱怨历史准确性问题，Google被迫暂停了Gemini生成人物图像的功能。但在8月份，该公司为某些用户重新引入了人物生成功能，特别是那些注册了Google付费Gemini计划（如Gemini高级版）的英语使用者，作为试点项目的一部分。

面向青少年的Gemini具有“额外的政策和保护措施”，包括定制的入门流程和“人工智能素养指南”，以帮助青少年负责任地使用人工智能。除此之外，它几乎与标准的Gemini体验相同，包括“双重检查”功能，用于查看Gemini的回答是否准确。

越来越多的Google制造设备利用Gemini增强功能，从Google TV流媒体器到Pixel 9和9 Pro，再到最新的Nest学习恒温器。在Google TV流媒体器上，Gemini会根据您的偏好跨订阅内容推荐，并总结评论甚至整个电视季的内容。在最新的Nest恒温器（以及Nest扬声器、摄像机和智能显示屏）上，Gemini将很快增强Google助手的对话和分析能力。订阅Google Nest Aware计划的用户将在今年晚些时候预览新的Gemini驱动体验，如Nest摄像机画面的人工智能描述、自然语言视频搜索和推荐自动化功能。

在最新的Nest恒温器（以及Nest扬声器、摄像机和智能显示屏）上，Gemini将很快增强Google助手的对话和分析能力。同样在今年晚些时候，Google助手将在Nest品牌和其他智能家居设备上进行一些升级，使对话感觉更自然。改进的声音即将推出，此外还有能力提出后续问题并“更容易地来回交流”。

因为Gemini模型是多模态的，所以它们可以执行一系列多模态任务，从转录语音到实时字幕图像和视频。当然，很难完全相信公司的说法。Google在最初的Bard发布时严重未能兑现承诺。最近，它发布了一个视频，声称展示了Gemini的功能，但这更像是一个理想化的展示，而非现实。此外，Google没有解决当前生成式人工智能技术的一些根本问题，比如其编码偏差和编造事实（即幻觉）。其竞争对手也没有解决这些问题，但在考虑使用或购买Gemini时需要记住这一点。

假设本文中Google对其最新声明是真实的，以下是不同级别的Gemini目前能做什么以及它们达到完全潜力时能做什么：

您可以使用Gemini Ultra做什么

Google表示，由于其多模态性，Gemini Ultra可以用来帮助完成物理作业，逐步解决工作表上的问题，并指出已填写答案中的可能错误。然而，近几个月来我们没有看到太多关于Gemini Ultra的信息。该模型并未出现在Gemini应用程序中，也不在Google Gemini的API定价页面上。但这并不意味着Google不会在未来将其Gemini Ultra带回其产品线的前沿。Ultra还可以应用于识别与问题相关的科学论文的任务，Google表示。该模型可以从几篇论文中提取信息，例如，生成必要的公式以用更及时的数据重新创建图表。Gemini Ultra在技术上支持图像生成。但这种功能尚未在模型的产品化版本中实现——也许是因为机制比像ChatGPT这样的应用生成图像更为复杂。Gemini不是向图像生成器（如ChatGPT中的DALL-E 3）输入提示，而是直接“原生”输出图像，无需中间步骤。Ultra作为API通过Vertex AI（Google的完全托管AI开发平台）和AI Studio（Google的基于网络的工具，供应用和平台开发者使用）提供。

Gemini Pro的功能

Google表示，其最新的Pro模型Gemini 2.0 Pro是其迄今为止在代码性能和复杂提示方面表现最好的模型。目前它作为一个实验版本提供，这意味着它可能会出现意外的问题。Gemini 2.0 Pro在代码、推理、数学和事实准确性方面的基准测试中优于其前身Gemini 1.5 Pro。该模型可以处理多达140万单词、两小时视频或22小时音频的数据，并可以跨这些数据进行推理或回答问题（大致如此）。然而，Gemini 1.5 Pro仍然负责Google的深度研究功能。Gemini 2.0 Pro与一个名为代码执行的功能一起工作，该功能于6月与Gemini 1.5 Pro一同发布，旨在通过多次迭代优化减少模型生成代码中的错误。（代码执行也支持Gemini Flash。）

在Vertex AI中，开发人员可以通过微调或“接地”过程将Gemini Pro定制到特定的上下文和使用案例。例如，Pro（以及其他Gemini模型）可以被指示使用第三方提供商（如穆迪、汤森路透、ZoomInfo和MSCI）的数据，或者从企业数据集或Google搜索中获取信息，而不是从其广泛的知识库中获取。Gemini Pro还可以连接到外部第三方API以执行特定操作，如自动化后台工作流程。AI Studio提供了用于创建结构化聊天提示的模板。开发人员可以控制模型的创造范围，并提供示例以给出语气和风格指令——也可以调整Pro的安全设置。Vertex AI代理构建器让人们能够在Vertex AI中构建Gemini驱动的“代理”。例如，一家公司可以创建一个分析以前营销活动以了解品牌风格的代理，然后将这些知识应用于帮助生成符合该风格的新想法。

开发人员在使用Flash和Pro时可以选择启用上下文缓存，这样他们可以将大量信息（如知识库或研究论文数据库）存储在一个缓存中，Gemini模型可以快速且相对廉价地访问这些信息。Gemini Nano是Gemini Pro和Ultra型号的精简版，它足够高效，可以直接在某些设备上运行，无需将任务发送到服务器。目前，Nano为Pixel 8 Pro、Pixel 8、Pixel 9 Pro、Pixel 9以及三星Galaxy S24提供了几个功能，包括Recorder应用中的Summarize功能和Gboard中的Smart Reply功能。Recorder应用允许用户按下按钮录制并转录音频，并包含了Gemini支持的对话、访谈、演示和其他音频片段的摘要。即使没有信号或Wi-Fi连接，用户也能获得摘要——而且为了保护隐私，处理过程中不会有任何数据离开他们的手机。Nano也在Gboard中，Gboard是Google的键盘替代品。在那里，它驱动一个名为Smart Reply的功能，在WhatsApp等消息应用中交谈时，可以帮助建议你接下来要说的话。在支持的设备上的Google Messages应用中，Nano驱动Magic Compose功能，可以根据“兴奋的”、“正式的”和“抒情的”等风格来撰写消息。Google表示，未来的Android版本将利用Nano在通话期间提醒用户潜在的诈骗。Pixel手机上的新天气应用使用Gemini Nano生成个性化的天气报告。而TalkBack，Google的无障碍服务，使用Nano为视力障碍和盲人用户提供对象的语音描述。

(以上内容均由Ai生成)