斯坦福利用AI生成合成数据揭示大脑奥秘
快速阅读: 利用AI生成的合成数据在脑科学研究中展现巨大潜力,斯坦福大学开发的BrainSynth系统能生成解剖学合理的3D脑部MRI,有助于揭示大脑奥秘,促进神经科学重大发现。
利用AI生成的数据,即合成数据,在众多应用领域展现出巨大优势,包括脑科学研究。近日,我在专栏中探讨了AI生成合成数据的有利用途,以及通过斯坦福大学正在进行的一项创新研究,如何利用这种数据绘制并揭开大脑的奥秘,该研究专注于解剖学上合理的3D脑部MRI图像。
读者可能还记得,我之前介绍过斯坦福医学院精神科及行为科学系的AI与心理健康计划(AI4MH),该项目由精神科及行为科学教授基利安·波尔博士共同领导(详见我对此项目的报道)。波尔博士的研究,即使用AI生成的合成数据来创建MRI图像,是利用生成式AI和大型语言模型(LLMs)在精神健康及其他研究领域取得关键突破的一个前沿实例。
这项关于AI进展的分析是我持续在《福布斯》专栏中报道最新AI动态的一部分,包括识别和解释各种重要的AI复杂问题。
背景简介,我一直在广泛报道和分析现代AI在心理健康咨询和AI驱动疗法方面的多方面影响。这一趋势主要受到生成式AI的发展和广泛应用的推动。关于这一主题,我发表了一系列文章,简要回顾了其中约四十篇,共计超过一百篇专栏文章。
毋庸置疑,这是一个迅速发展的领域,蕴含着巨大的潜力,但同时也伴随着隐含的风险和挑战。我经常就这些问题发表意见,包括去年在CBS的《60分钟》节目上的一次露面。
每当使用生成式AI或LLM,如OpenAI的热门产品ChatGPT时,实际上都是在生成数据。这种由AI产生的数据被称为合成数据。它之所以被认为是合成的,是因为它是通过AI而非人类手写产生的。
当你向ChatGPT、Claude、Gemini、Grok等提问如何煮鸡蛋或修理汽车时,你可能不会意识到自己正在生成数据。对于你来说,AI只是回答了你的问题。然而,任何AI的回答或响应都是一种数据形式。这些数据本身具有价值,除了作为答案外,还可以用于其他智能目的。例如,你可以将生成的数据发布到互联网上,与访问该帖子的其他人分享。
合成数据的兴起引发了激烈的辩论。合理且恰当地使用合成数据可以带来巨大的好处。然而,如果合成数据被随意或没有适当控制地使用,可能会出现问题。
一个主要的担忧是,互联网将充斥着合成数据。根据所谓的“死亡互联网理论”,有人担心,当人们在网上阅读内容时,所读到的可能是由AI生成的文本。你可能不会意识到这一点,而是假设这是某人亲自撰写的评论。
合成数据的普及被认为是一个负面现象,因为互联网的大部分内容最终可能几乎全部由AI生成的数据组成,而真正的人类创作内容将变得稀少,如同大海捞针。
关于互联网上AI生成数据的比例已经达到了何种程度,目前存在激烈的讨论。有人认为,用合成数据替代人类撰写的数据可能更好。谁说人类撰写的数据一定优于AI生成的数据?这场热烈的辩论仍在继续。
在我关于最新AI趋势的演讲中,经常会有人问及是否应该禁止使用合成数据,或者不允许将AI生成的数据发布到互联网上。甚至有人提议将其定为犯罪,以保持互联网作为纯粹的人类创作内容的净土。
我坚决认为,将合成数据视为短视的做法是错误的。这种观点无异于“因噎废食”。人工智能生成的数据具有巨大的价值,我们应当审慎思考如何利用这些价值。当然,我们也应该警惕误用合成数据,并采取相应的谨慎措施(详见我对该主题的深入分析,包括驳斥有关AI模型因合成数据而崩溃的担忧,链接见此处)。
以合成数据在心理治疗师与客户会话分析中的应用为例,可以说明其益处。通过研究心理治疗师与客户的互动,我们可以深入了解治疗和治疗方法。一些治疗师在征得客户同意后,记录并转录了他们的会谈,然后利用这些材料自我反思其治疗技巧。这也有助于回顾会谈,从而在平静地进行事后分析时获得更多关于客户的见解。
这些转录的会谈在更大范围内具有更大的价值。如果治疗师对转录内容进行了匿名处理,他们可以将其提供给其他治疗师和研究人员。通过分析数百甚至数千份这样的转录,我们可以从宏观角度了解各种疗法在治疗师与客户会谈中的实施情况,发现能够推动心理健康实践全面进步的关键模式。
然而,分析治疗师与客户会谈的障碍在于,这类转录资料并不丰富,且获取成本较高。另一个问题是,这些转录通常需要大量的数据清理工作,因为对话往往是断断续续的口头片段。总体而言,由于缺乏可用的转录资料、获取成本以及使其易于使用的困难,利用治疗师与客户会谈资料进行研究和推进心理健康理论与实践的愿望受到了阻碍。
如何克服这一难题?
一种方法是使用生成式人工智能和大语言模型来生成基于AI指导的治疗师与客户对话转录。因此,生成代表治疗师与客户对话的合成数据。我已经这样做了,并在链接中描述了关键的操作细节。重要的是要以正当和透明的方式使用AI来实现这一目的。目标是生成与真实对话相匹配的对话。同样重要的是,要标明这些对话是合成的,以便其他研究人员了解这些转录是如何产生的。
斯坦福大学正在进行一项令人振奋的努力,使用生成式AI来创建合成的脑部MRI图像,这是合成数据有益应用的又一例证。假设你想研究MRI以揭示大脑的工作原理。你可能希望大规模地研究许多MRI以识别模式,或者深入研究特定的MRI以发现有助于揭示大脑状况的关键要素,比如潜在疾病或异常。
如何获得足够多且种类丰富的MRI来进行这些以大脑为中心的分析?
一种明智的方法是使用AI生成MRI,然后对其进行分析和研究。我们希望这样做并且尽可能地使MRI逼真。随意生成不能反映人类实际遇到的真实情况的MRI是不可取的。如果这些MRI要被有效利用,它们必须是真实的。
正如最近一篇在线文章《生成AI助力斯坦福研究人员更好地理解脑部疾病》(《斯坦福报告》,2025年10月7日)所述,Kilian M. Pohl教授表示:“未来神经科学的重大发现将依赖于AI技术。目前的问题是,这项技术往往会产生不可靠的结果,因为大多数脑部MRI研究的样本量不够大。”
波尔共同领导了人工智能心理健康计划,并是斯坦福HAI和吴蔡神经科学研究所的教员。他最期待将BrainSynth应用于研究那些微妙影响大脑的疾病。“我研究的许多疾病或状况并不十分了解,这些疾病对大脑的影响很微妙,通常肉眼难以察觉。”波尔说,“我希望利用这项生成式人工智能技术捕捉这些细微影响。”
第二点提到开发了一种用于合成MRI的人工智能系统,称为BrainSynth。让我们深入了解这一功能。
解析BrainSynth及合成数据
该方法巧妙地运用生成式人工智能生成合成数据,制作可用的3D脑部MRI。至关重要的是,合成的MRI必须在解剖学上合理。实现这一点是一个难题。生成MRI是一回事,但生成的图像需要反映人类解剖学的真实情况,这涉及复杂的问题。
在波尔博士共同撰写的题为《元数据条件下的生成模型合成解剖学合理的3D脑部MRI》的研究论文中,韦鹏、托马斯·博斯奇特、欧阳嘉宏、罗伯特·保罗、埃德斯·V·沙利文、阿道夫·普费弗鲍姆、艾斯安·阿德利、赵青玉和基利安·M·波尔在《医学影像分析》杂志2024年8月刊中提出了以下关键点(摘录):
“生成模型的最新进展为自然和医学图像,包括合成脑部MRI的生成开辟了道路。”
“为了生成适用于神经科学研究的高质量T1加权MRI,我们提出了一种两阶段扩散概率模型(称为BrainSynth),以元数据(如年龄和性别)为条件合成高分辨率MRI。”
“我们随后提出了一种新程序,评估BrainSynth合成的MRI如何准确捕捉大脑区域的宏观结构属性以及如何编码年龄和性别的影响。”
“结果显示,在我们的合成MRI中,超过一半的大脑区域在解剖学上是合理的,即合成MRI与真实MRI之间的效应大小相对于年龄和性别等生物因素较小。此外,解剖学合理性随皮层区域的几何复杂度而变化。”
“这些结果表明,我们的模型准确捕捉了大脑的解剖信息,因此可以丰富研究中代表性不足样本的数据。”
该研究的元数据方面尤为值得注意。正如上述,BrainSynth旨在编码年龄和性别等因素的影响。将生物学因素纳入生成过程大大提高了数据的可用性,并有助于实现解剖学合理性目标。
对于感兴趣了解BrainSynth人工智能基础的读者,可以查看项目的GitHub网站,链接如下。
合成数据的双重检查
任何生成合成数据的人工智能努力都需要包括对生成数据的双重检查,这是BrainSynth研究中特别指出的一点。研究人员仔细比较了真实MRI与合成MRI。这样做有助于确定合成是否准确,并充分捕捉到现实现象的关键特征。
同样,任何选择使用人工智能生成数据的人都应该如此操作。
人工智能生成的数据有时会被未经检查地提供给世界,这是导致合成数据声誉不佳的原因之一。人们可能会错误地依赖合成数据,就像它是真实数据一样。然而,合成数据可能包含不准确性,包括令人担忧的AI幻觉(参见我对所谓的AI幻觉的评估)。
我是合成数据双重检查和标注生成数据为AI产品的强烈倡导者。
最后的思考
如今流行的一个口号是,我们必须尽量减少被当作有效数据分享的“AI垃圾”。AI垃圾越多,对社会的整体影响就越负面。因此,我预测这将引发一系列新的法律,试图遏制AI垃圾,但这些法律可能会无意中过犹不及,造成与潜在解决方案同样多的问题。
正如爱因斯坦所说:“只有为他人而活的生命才是值得的。”如果你打算使用AI生成合成数据,请以他人为中心。力求生成有效的数据,双重检查数据,标注其为合成数据,然后才将其发布供他人使用。这样,你将使爱因斯坦为你勇敢的努力感到骄傲。
(以上内容均由Ai生成)