OpenAI 框架：AI 现在“正处于做新科学的风口浪尖”

快速阅读: 据《药物发现与开发》最新报道，新科学研究系统时代来临，AI从数据分析师转变为科学发现参与者。国家实验室开发“自动驾驶实验室”，能源部举办研讨会测试AI模型。AI能力分五级，向更自主方向发展，可能重塑科研与软件开发领域。

在即将开启的新科学研究系统时代里，有这样一句引言：“我们即将进入能够进行新科学研究的系统时代。”这句话出自OpenAI最新发布的《准备框架》（第二版，2025年4月15日更新），标志着研发生态系统可能发生一场范式转变。这一生态系统正迅速从渴望但不总是准确的实习生阶段，向着潜在的同事——甚至可能是首席研究员的方向发展。

展望未来，《准备框架》应对人工智能可能变得“递归自我改进”的潜力。它警告说，由此产生的“人工智能研发速度的重大加速”可能会迅速引入新的能力和风险。这种加速可能会超出当前的安全措施，使监督变得“不足”，并明确警示失去对人工智能系统本身“保持人类控制”的危险。就在几周前的3月5日，在高盛的一次活动中（4月11日在YouTube上发布），OpenAI首席财务官莎拉·弗雷尔强化了这一观点，表示模型已经在其领域中“提出新颖的东西”，并超越仅仅反映现有知识，以“扩展这一点”。弗雷尔进一步指出，迈向通用人工智能（AGI）的步伐正在迅速接近，暗示“我们可能已经到了”。尽管承认与一些专家的持续争论——他们甚至对AGI这个术语持怀疑态度，更不用说其可行性——至少对于大型语言模型而言，弗雷尔提到首席执行官山姆·阿尔特曼认为通用人工智能（AGI）——处理大多数有价值的人类工作的AI——可能是“迫在眉睫的”。这表明从AI作为研究人员的工具到AI作为研究人员的过渡可能比许多人意识到的要近得多，早期的例子可能已经在软件开发等领域出现。

领先的研发机构正在积极构建‘自主研究’能力。例如，阿贡和橡树岭等国家实验室正在开发专门用于材料科学和化学的‘自动驾驶实验室’。洛斯阿拉莫斯也在与OpenAI合作，在其文达尔超级计算机上测试其推理模型在能源和国家安全应用中的表现。总体而言，国家实验室正在探索使用AI承担核心研究任务：通过优化策略生成假设、设计多步骤实验、控制机器人执行、实时分析结果，并在特定操作领域显著减少人为干预的情况下向发现目标迭代。虽然仍需要人类监督以验证和战略指导——可能处于研究自主性的‘3级’或新兴的‘4级’——这些举措表明AI正超越被动的数据分析，直接参与科学发现过程。

这一推动不仅限于构建集成系统；它还涉及直接赋予研究人员权力，正如最近能源部‘1000科学家AI研讨会’所见。这次大规模协作汇集了来自多个国家级实验室的约1500名科学家，包括阿贡，以在现实世界科学问题上测试来自OpenAI和Anthropic等公司的先进AI推理模型。研究人员特别探讨了它们增强假设生成和实验自动化等任务的潜力。

类似的转变已经在软件开发中开始，尽管开发者目前对生成式AI赋能工具的潜力持有不同看法。今天的AI通常充当助手，但这项技术正在快速提升其软件能力，特别是在从JavaScript到Python等常见语言方面。OpenAI的模型在关键基准上表现出显著进步，“接近人类水平”，弗雷尔指出其中一个已经是“世界上最好的编码员”。这为弗雷尔描述的“主动型软件工程师”奠定了基础，即一种“可以独立为你完成工作的AI”，包括构建、测试和记录应用程序。这种向更自主能力的演变可能会彻底重塑整个领域。

据报道，OpenAI内部使用了一个五级框架来衡量其向通用人工智能（AGI）发展的进展。这个结构在2024年中期公司内部讨论过，后来被《彭博商业周刊》等媒体报道，概述了AI能力的不同阶段：

1级：聊天机器人/对话式AI：擅长自然语言的系统，如ChatGPT。
2级：推理者：具备基本问题解决能力的AI，可与受过高等教育的人类相当。在这个级别上，模型还可以展示出没有外部工具的新兴推理技能。
3级：代理：能够管理复杂任务并在用户代表下长时间做出决策的自主AI系统。
4级：创新者：通过生成新想法、协助发明或推动突破，对创造力和发现作出重大贡献的AI。
5级：组织：AI可以管理整个组织的复杂功能的顶点阶段，可能超越人类效率。

总体而言，国家实验室正在探索使用AI承担核心研究任务：通过优化策略生成假设、设计多步骤实验、控制机器人执行、实时分析结果，并在特定操作领域显著减少人为干预的情况下向发现目标迭代。虽然仍需要人类监督以验证和战略指导——可能处于研究自主性的‘3级’或新兴的‘4级’——这些举措表明AI正超越被动的数据分析，直接参与科学发现过程。

(以上内容均由Ai生成)