使用 Gemini 的 NotebookLM 是一类新型 AI 软件:Google 的 Steven Johnson
快速阅读: 《印度斯坦时报》消息,谷歌NotebookLM团队负责人在接受采访时透露,其新发布的手机App已迅速成为全球下载量领先的生产力App。NotebookLM主打基于用户上传资料的个性化AI助手功能,通过Gemini模型减少幻觉现象。未来计划拓展视频概述、写作增强及与其他Google应用的整合。
加州山景城:在谷歌I/O 2025开发者大会开幕前一天,这家科技巨头内部一个规模相对较小的团队发布了其智能手机App。这些App在不到24小时内就成为全球苹果应用商店下载量排名第二的生产力类App和整体下载量第九的App。
**NotebookLM**仍然引发了一些疑问——我们经常被问到这是一种什么样的AI工具。**史蒂文·约翰逊**是NotebookLM和谷歌实验室的编辑总监,他指出答案其实很简单。“从一开始,NotebookLM的主要特点就是你给我们你的资料,我们会将模型限制在这些资料上,”他说,并进一步说明这种方法是完美理解复杂主题或解析原本需要更长时间才能阅读和理解的冗长、多层文档的好方法。
约翰逊在I/O 2025大会的间隙接受了HT的采访。(官方照片)
虽然NotebookLM之前主要在网页版提供服务,但为安卓手机和苹果iPhone发布App也体现了时机的重要性——即在App中为用户个人笔记本推出视频概述功能;这一功能紧接音频概览之后推出,这两种使用场景更适合手机使用而非典型的台式机。
约翰逊在I/O 2025大会的间隙与HT交谈,讨论了这个独特且仍是同类产品中唯一的人工智能(AI)平台的用户采用情况、视频概述功能背后的思考、训练NotebookLM的基础模型以及对抗幻觉现象,以及接下来几个月的发展路线图。以下是经过编辑的摘录。
此外阅读:解锁通用AI助手愿景的关键步骤:谷歌DeepMind首席执行官德米斯·哈萨比斯
**Q.** NotebookLM备受期待的Android和iOS App昨天已经上线。您如何看待这一发展对用户采用的影响,以及它在手机上的使用方式?您觉得用户现在有机会充分探索哪些特定功能?
**史蒂文·约翰逊**:您可能会惊讶地发现,自从我们在九月份发布了音频概览后,人们就开始询问是否能有一个App,这样他们可以在外出时播放音频,也可以快速回答一些问题。我们有一个功能强大的网页应用,这很好,但显然人们希望能够在一款稳定、美观且功能完善的App中获得所有功能。我们的用户对此表现出极大兴趣。
但是当音频概览推出时,我们只有七名全职工程师。按照谷歌的标准,我们算是非常小的团队。我们没有人负责移动开发。基本上,我们在去年年底之前完成了一个V1版本的App,但我们决定不急于推出,而是确保其品质。在网站上可以做很多事情,在移动App中却做不到。但我们希望它成为一个稳定、美观且功能完善的App。所以我们花了一点时间来确保其品质。
我们最近开始支持图片功能,这意味着用户可以上传源数据的图片。我想拍张我正在设计的这座建筑的照片,我是一名建筑师,然后我希望能够向Notebook询问关于这座建筑设计的问题——基本上所有那些你可以用多模态模型做的事情。这在总体路线图上是非常令人兴奋的。
我们还宣布即将推出新的视频概述功能,这是由同一个团队制作的,该团队也负责音频概览。它有点像带有幻灯片、来自您源数据的图片和图表的微型讲座,由一个人讲解。由于这不是两人对话的形式,这是一种高效的方式为您提供信息,其中视觉元素起到了补充作用。
我们也在开始考虑提前为人们创建笔记本,例如策划不同主题的笔记本。NotebookLM的一个问题是,当你第一天来的时候,你没有任何笔记本,必须自己创建它们,产品才会变得有用。我们将开始推出预包装的不同主题的笔记本。
作为信息分享平台,NotebookLM还有很大的探索空间。
此外阅读:谷歌I/O:解码Gemini应用、搜索中的AI、谷歌Beam和Workspace更新
**Q.** 最新公告是关于视频概述功能即将登陆NotebookLM。您能否告诉我们更多关于这一点,以及支撑这一功能的模型是什么?
**SJ:** 基本上都是Gemini,因为它不是生成任何实际的运动视频,而是从您的幻灯片中提取静态图像,以创建一种视频,这种视频通过时间轴展示图像并配有旁白。但我们对当前视频概述平台可能实现的惊人事物非常感兴趣。我相信在这个平台上有很多东西,即使在我们达到全动态视频之前,也有很多功能可以发展。
在这方面它与音频概览有所不同,因为它可以生成时间线,从您的源数据中生成某种引语,生成议程,生成对比视觉效果等。我们要求模型做的事情之一是,给定数据源,因此给予这些构建模块,那么你能讲述的最佳故事或精心策划的解释是什么,以帮助某人理解这些材料。我们可以继续添加更多的构建模块。我们不会仅仅从您的源数据中提取图表,而是会根据您源数据中的事实自发生成图表。我们现在还不能做到这一点,但你知道这是即将到来的。所以可能会有办法生成图像或视觉效果,随着时间的推移会变得越来越强大。
我相信我们会发现这个视频平台实际上是许多我们所做的重要事情的基础。
**Q.** NotebookLM是以源为中心的,不像广泛知识型AI。您能否告诉我们NotebookLM架构内采用的技术机制和策略,以有效遏制幻觉,特别是在处理复杂的或矛盾的源材料时?
**SJ:** 从一开始,NotebookLM的主要特点就是你给我们你的源数据,我们会将模型限制在这些源数据上。基本上,将模型限制在这些源数据的信息中,我们认为这对各种原因都很有价值。显然,与广义的兴趣和广义用途的模型交谈也很有价值。但我们认为有许多应用场景,您希望限制模型的知识范围到您提供的文档。
这可能是因为您想个性化它,或者是因为您想要某种特定的专业知识。这也可能是因为您正在从事一个项目,希望模型成为该领域的专家,并将其扎根于该领域。它还有一个额外的优势,就是在您将某些内容直接放入模型上下文时减少了幻觉现象,这使得结果更加准确。
我们有一个最先进的引用系统,用户始终可以看到信息来自何处。您可以将其作为一种探索复杂信息的方式。只需跟随引用进入文本,然后您就可以在那里阅读。从一开始就做了很多事情之一就是确保您的原始文档是您正在做的事情的一部分,而不是仅仅放在某个背景中或完全忽略。
但它也留下了这样的可能性:如果用户输入一系列解释地球是平的的文件,根据声明的严重程度,模型会根据源数据报告这些内容,或者会说“根据您的源数据,地球是平的”,尽管这并不被认为是普遍正确的。但总的来说,我们让用户定义这些源数据中的真相,我们已经决定这是最负责任的做法。
此外阅读:谷歌正在构建Gemini,使其成为积极主动、个性化的通用AI助手
**Q.** 训练和定义这样的模型难度如何?仅仅是由于数据集不在你的掌握之中吗?
**SJ:** 在Gemini模型被用于NotebookLM之前,其底层进行了大量的训练。由于NotebookLM是Google AI计划的一部分,从一开始Gemini就非常注重来源定位。但这是模型训练流程的一部分,作为训练过程的一部分发生在模型层面。模型必须擅长坚持放入模型上下文中的文档的事实。
总体而言,从我所看到的情况来看,Gemini在这方面是最好的模型。我们在正确的时间、正确的科技公司中构建了Notebook,我很高兴我们拥有这个模型而不是其他模型。这只是模型训练流程的一部分,强化学习过程就像让模型学会坚持文档的事实。
当它到了我们的Notebook团队手中时,我们所做的就是编写系统提示,以确保这种行为表现出来,并尽可能强大。
**Q.** 由于用户上传的个人且可能敏感的研究材料,数据安全和隐私至关重要。你能给我们一些关于NotebookLM采取的具体安全措施和协议的感性认识,以保护用户数据吗?
**SJ:** 目前我们没有“保持数据私密”的开关设置,因为所有数据都是私密的。我们当前完全不使用用户的任何数据来以任何形式训练模型。如果我们将来改变这一点,我们将显然给予用户对此的控制权。唯一可能发生的状况是,如果你提出一个问题并对问题的回答给出负面反馈,人类可能会查看问题和答案对以找出哪里出了问题。但没有训练。
我们知道人们正在将他们的日记,甚至是他们正在撰写的一本书放入NotebookLM上的笔记本中。我们希望他们能确信这些信息不会进入模型的训练集中。
也阅读:技术音调 | 为什么AI公司对Google Chrome如此看重?
**Q.** NotebookLM接下来会怎样?你是否有一些关键领域或功能想要专注于,与其他Google应用的集成是否在路线图上?
**SJ:** 在早期,内部有人询问我们NotebookLM是否专门针对学生或作者设计?我们坚持认为它不仅仅是为学生,也是为作者设计的,但它不仅仅是为了他们。这是一个更加广泛的平台,适用于任何从事涉及多个文档并需要综合这些文档中的信息并理解事物的人。
我们刻意避免专注于某一特定用户,而是试图将其视为一个更大的东西。但这意味着我们可以有这么多不同的发展方向。我个人十分希望扩展NotebookLM内的写作功能。你可以在聊天中进行很有智慧的写作,而且我们确实有一些可以复制粘贴的笔记。但我希望它成为一种带有我资料背景的笔记编辑器。
通过不同类型的演播室输出,如视频概览和音频概览,你可以想象像互动导师这样的东西,帮助你学习不同的主题。也许我们可以创建一个市场,让人们在不同主题上出售笔记本。我们有太多想做的事情。
团队已经壮大了很多,所以我们有更多的能力。在过去几个月里,我们推出了许多新功能,如思维导图、资源发现,以及现在的移动应用程序。
但由于我们有很多雄心壮志,很难优先考虑。至于与其他Google应用的交互,显然能够在Docs、Drive和NotebookLM之间来回跳转会很好。我们可以做得更好,但一年前,我们是一个非常小的团队,大多数人甚至都没有听说过我们。所以很难引起Drive团队等人的注意。为什么他们会花时间帮助Google内部这个只有七个人的小创业公司?但现在人们正在回应我们的电话,所以我认为你会看到更多NotebookLM的功能。
Gemini和Notebook之间的联系也会加强。我认为人们真的接受了这样一个想法,即拥有一个专门帮助你理解复杂文档内容的工具。这是一个新事物。文字处理器帮助你组织你的文字和页面,并视觉化地传达你的想法。但一个真正试图帮助你理解你想理解的东西的工具,在某种意义上是一种新的软件类别。
无论是学生、知识工作者还是作者,用户似乎都能理解这一点并看到其价值。我们现在的口号是——理解任何东西,无论是什么,扔进去,我们会帮助你理解它。
(以上内容均由Ai生成)