通过 AI 本身的有益帮助定义难以捉摸的 Agi 的定义不明确含义

快速阅读: 据《福布斯》最新报道，通过整合多个生成式AI模型，得出了一个初步的AGI定义：一种能在广泛任务中达到或超越人类水平的自主系统，具备理解、学习和适应能力。这一实验展示了AI在解决复杂定义问题上的潜力。

利用生成式人工智能和大型语言模型，终于得出一个较为合理的AGI定义。盖蒂在今天的专栏中，我将探讨人工通用智能（AGI）研究面临颇为棘手的问题。简单而言，目前还没有一个普遍公认的AGI定义。这种情况非常遗憾。困难在于，当你读到某家人工智能公司声称他们正在向AGI迈进时，你几乎没有任何依据来判断他们所谓的进展到底是什么。即使他们有自己的专有AGI定义，这个定义也常常被巧妙地调整以符合他们选择的方向。更多关于人工智能制造商如何“改变目标”以实现其AGI成就的细节，请参阅我在这里的讨论。在今天的专栏中，我将探讨人工通用智能（AGI）研究面临颇为棘手的问题。简单而言，目前还没有一个普遍公认的AGI定义。因此，我将直面问题，提出一个初步的AGI定义方案。有趣的是，也许令人惊讶的是，我将借助生成式人工智能来实现这一目标。

在今天的专栏中，我将探讨人工通用智能（AGI）研究面临颇为棘手的问题。简单而言，目前还没有一个普遍公认的AGI定义。让我们深入探讨这个问题。这项关于人工智能创新突破的分析是我为福布斯撰写专栏的一部分，涵盖识别和解析各种深刻的人工智能复杂性（请参见此处链接）。更多内容：印度向巴基斯坦发射导弹——伊斯兰堡称之为“战争行为”（实时更新）今日《纽约时报》迷你填字游戏线索及答案，2023年5月7日星期三。斯蒂芬·库里因腿筋拉伤退出勇士队季后赛比赛：“这可能至关重要”。通往AGI和ASI之路。

首先，为这场重要讨论奠定基础，需要一些基础知识。有很多研究正在进行，以实现人工通用智能（AGI），或者甚至更远的可能性，即实现人工超级智能（ASI）。AGI是一种被认为与人类智力相当的人工智能，并且似乎可以匹配我们的智力。ASI是一种超越人类智力的人工智能，在多数甚至所有可行方面都会更卓越。其理念是，ASI将能够在每个转折点上超越我们，从而能够轻松应对人类的各种挑战。更多关于传统人工智能与AGI及ASI区别的信息，请参见我的分析此处链接。有很多研究正在进行，以实现人工通用智能（AGI），或者甚至更远的可能性，即实现人工超级智能（ASI）。还未实现AGI。事实上，我们是否能达到AGI尚不清楚，或者AGI可能在几十年或几个世纪后才能实现。那些流传的AGI实现日期差异极大，且缺乏任何可靠证据或坚实逻辑支持。当谈到当前的传统人工智能时，ASI更是遥不可及。

还未实现AGI。定义模糊的AGI似乎几乎所有人工智能社区的人都倾向于给出自己偏好的AGI定义。当然，并不是每个人都这样做，但很多时候，人工智能研究人员发现自己处于尴尬境地，需要从头开始定义AGI，因为他们推测AGI将会是什么样子。这合情合理，因为研究人员需要确保读者了解该研究或实验中AGI的工作定义。当然，这种AGI定义的多样性意味着你无法轻易进行苹果与苹果的比较。一项研究可能会以一种特定方式定义AGI，而另一项研究则会以不同的方式定义AGI。因此，由于苹果与橙子的不同，你很难进行直接的对比。失望的表情。

目前在所有关于AGI的研究和预测中都存在一个巨大的空白，因为没有一个普遍标准定义传统人工智能，因此我们没有一个普遍公认的AGI定义也就不足为奇了（请参见此处链接，了解AGI这一名称是如何出现的）。AGI定义的小样。

目前在所有关于AGI的研究和预测中都存在一个巨大的空白，因为没有一个普遍标准定义传统人工智能，因此我们没有一个普遍公认的AGI定义也就不足为奇了（请参见此处链接，了解AGI这一名称是如何出现的）。为了让你快速了解AGI定义的多样性，我列举三个代表性例子，这些例子是从最近专注于AGI的人工智能现代经典文献中摘录的：

(i) AGI定义示例：“一种高度自主的系统，不是设计用来执行特定任务，而是能够学习并至少在与普通人相同的水平上完成人类所能完成的广泛任务，排除生物差异”（费德里科·法罗尔迪在《风险与人工通用智能》一书中所述，AI & Society，2024年7月9日）。

(ii) 另一个AGI定义示例：“AGI是一台能够解决人类可解问题的计算机，但不一定以人类的方式解决问题”（莫里斯等人在《AGI的层次：迈向AGI道路上的进步操作化》一文中所述，arXiv，2023年11月4日）。

(iii) 另一个AGI定义示例：“我们将AGI用于指代那些展示出广泛智能能力的系统，包括推理、规划以及从经验中学习的能力，并且这些能力达到或超过人类水平”（布贝克等人在《人工通用智能的火花：早期GPT-4实验》一文中所述，arXiv，2023年3月22日）。

仔细检查这三个例子。你觉得它们说的是同一件事吗？看起来并不像是。虽然它们都在围绕AGI的整体概念跳舞，但每个都有自己的独特视角。我们需要的是一个同样简洁的东西，以便人们容易理解并共享，同时包含足够的细节来确定AGI的本质。一个有用的通用AGI定义。也许，只是也许，我们可以围绕那个黄金文本团结起来，最终在谈论AGI时都能说同样的话。开心脸。

关于AGI的非正式实验。

为了尝试解决这个挑战，我决定整合过去三年内人工智能研究论文中提到的二十个AGI定义。我可以只用2025年这一年，但我认为使用近年来出现的AGI定义更为平衡，而不只是今年的。这尤其显得合理，因为我挑选了一些现代经典文献，它们出现在自2023年以来发表的著名人工智能研究论文中。你会如何整合这二十个AGI定义？记住，这里的目的是提炼出一个单一AGI定义的最终版本。你需要将这二十个定义以某种方式整合、融合或整理成一个简洁的定义。最简便的方法就是直接选取其中一个。我不会走那条路。让我们看看能否将其视为集体智慧，并转化为一些卓越成果。也许协同效应可能会带来一些惊喜成果。

你会如何整合这二十个AGI定义？我意识到一些批评者可能会对我没有收集更多的AGI定义感到不满。是的，我可以找到五十个，甚至可能一百个或更多。由于这是一个非正式的实验，不受通常严格的规则约束，我认为二十个是一个公平的数量。它比五个、十个或仅仅十二个多。这本身就值得称赞。

借助AI的AGI定义结果发现，已经有一个非常实用的基于文本的内容混合工具存在，并且渴望用于这样的任务。我指的是当代生成式人工智能和大型语言模型（LLMs）。毫无疑问，LLMs特别擅长接收文本并根据提供的文本输出文本。如果你直接问你最喜欢的生成式AI一个AGI的定义，你会立刻得到一个AGI的定义。砰！你的任务完成了，恭喜。

生成式AI的数据训练是通过对互联网文本进行扫描完成的，肯定遇到了许多AGI的定义。从这个意义上说，仅仅要求LLM给出一个AGI的定义，就能得到一个混合版的AGI定义。

我决定不直接让AI告诉我一个AGI定义，而是进行一场小竞赛。如果你直接问你最喜欢的生成式AI一个AGI的定义，你会立刻得到一个AGI的定义。砰！你的任务完成了，恭喜。生成式AI的数据训练是通过对互联网文本进行扫描完成的，肯定遇到了许多AGI的定义。从这个意义上说，仅仅要求LLM给出一个AGI的定义，就能得到一个混合版的AGI定义。

我的非正式实验设计如下。我会给一组选定的LLMs提供二十个AGI定义。我会要求每个LLM基于这二十个定义生成一个新的AGI定义。新的AGI定义应分为两个版本，一个是简短版，另一个是详细版。这是我使用的提示：

这是我使用的提示：“AGI目前定义不清。我将给你二十个AGI的定义。你需要仔细阅读这些定义，然后基于提供的定义提出一个新的AGI定义。不要偏爱其中任何一个定义。此外，你可以偏离这些定义，只要确保在你推导新的AGI定义时给予每个定义充分的关注。你需要产生一个相对简短的AGI定义，由一到两句话组成。完成后，再生成一个更详细的AGI定义，长度为一段。你理解这些指示了吗？”

我敢肯定有些讨厌鬼会对提示的措辞提出异议。我倾向于稍微倾斜一点，这样我就不会让AI忽略提供的定义。这种情况可能发生。AI可能会跳过定义，展示自己的AGI定义。这不是我想要发生的事情，所以我试图澄清任务的本质。

我选择了四个流行的生成式AI LLMs，包括ChatGPT、GPT4-o、Llama 3.3和Claude 3。这些似乎是一个合理的小组在这个情况下使用。可以扩展到使用更多的LLMs吗？当然可以。这里的目标是尝试一下，看看是否会有什么刺激的事情发生。

第一轮AGI定义

我进行了实验。对于每个LLM，我都输入了我的准备好的提示，然后提供了二十个参考的AGI定义。它们每个都按照我的要求给出了两个版本的AGI定义，一个是简短版，另一个是详细版。这给了我四个简短版本的AGI定义，以及四个较长版本的AGI定义。由于这会占用大量宝贵的空间，我不会在这里全部展示。我进行了实验。对于每个LLM，我都输入了我的准备好的提示，然后提供了二十个参考的AGI定义。它们每个都按照我的要求给出了两个版本的AGI定义，一个是简短版，另一个是详细版。

例如，这是Claude的回答：

Claude生成（简短版）：

例如，这是Claude的回答：“AGI是一种人工智能系统，能够学习并在人类水平或以上熟练地执行广泛的任务，并具备适应和泛化其能力到新情况下的能力。”

Claude生成（长篇版）：

“AGI指的是一个先进的AI系统，能够在推理、规划、学习和解决问题等方面表现出宽广的认知能力，其水平可与或超过普通人的水平。与专门设计用于特定任务的窄AI系统不同，AGI被视为一种高度自主的系统，能够适应并将其智能应用于各种现实世界或虚拟环境中，以灵活和一般化的方式解决复杂的难题和挑战。AGI的关键特征是其广泛的能力、通过经验学习和改进的能力，以及在各种智力和实践领域超越人类水平表现的潜力。”

看看这两个由AI生成的AGI定义，并仔细思考它们，或许一边品尝一杯优质的葡萄酒。集中关注AGI的简短版本。

在第二轮中，我选择将四个简短版本输入到每个LLM中。我要求LLMs基于提供的简短版本生成一个新的简短版本。然后我输入了四个长版本，并要求四个LLMs生成这些长版本的简短版本。我的重点是推导出一个简短版本。在未来继续这个实验时，我也会这样做以推导出长版本。

我现在手里有了八个简短版本。作为第三轮也是最后一轮，我要求每个LLM对提供的八个简短版本进行排名。它们应该将它们认为最好的那个列为#1，然后依次列出#2、#3，直到第八个。我希望LLMs能理解这个排名练习，令我高兴的是，它们都迅速地做到了。这是我使用的提示：

我输入的第三轮提示：“你需要仔细阅读我即将提供给你的八条通用人工智能（AGI）的定义。按照你认为最好的到最差的顺序对它们进行排序。在展示排名结果时，只需列出定义的编号即可。例如，如果你认为第七条定义是最好的，那么你需要标明AGI定义的第一名为第七号。”

这似乎奏效了，每个大型语言模型的表现都非常出色。在由ChatGPT、GPT4-o、Llama 3.3和Claude 3这四个生成式人工智能应用程序进行的排名中，ChatGPT赢得了这一轮，它们一致选择这条AGI定义为所提供的八个定义中的第一名：“AGI指的是能够理解和应用知识、跨越广泛任务和环境的自主系统，其适应性和泛化能力与人类相当或超越人类。它展现出灵活的认知能力，例如推理、规划和解决问题，超出狭窄或预设的领域。”（根据基于所有生成的八个短定义的ChatGPT短版本）。

它们将上述AGI定义列为八个中的第一名的主要理由通常表述为：“最全面，强调理解、学习、应用、跨领域泛化、不熟悉环境以及灵活认知能力。”

ChatGPT也获得第二名，但并非一致（Claude将其排在第三，其余将其排在第二）：“AGI是一种自主系统，能够在不同上下文中泛化知识，独立于特定实现方式运行，能够在各种领域和新颖情境下以或高于人类水平的能力学习、推理和适应，执行一系列智力要求高的任务。”（基于所有八个短版本的ChatGPT短版本）。

它们将上述AGI定义列为八个中的第二名的主要理由通常表述为：“非常有力；明确突出泛化、新情境以及独立于特定实现方式。”

对排名及最终选择进行评估

我个人认同它们的评估，在仔细审视所有八个生成的AGI简短定义后，我也得出相同的结论，即所提供的八个定义中的第一名正是上述提及的AGI定义。我认为我没有受到它们选择的影响。我愿意不同意这些大型语言模型的观点，甚至几乎想这么做。不，这次胜出的确实是正确的那个。令人惊讶的是，四个不同的大型语言模型选择了同一AGI定义作为它们的第一名。我原以为排名会大相径庭。

一个显而易见的假设是它们选择的那个确实是最优的。另一种怀疑是某些事情出了问题。例如，由于运气因素，我将ChatGPT获胜的定义置于前八个中的首位。你可能会怀疑四个大型语言模型懒惰地选择了第一个。我不这么认为。每个大型语言模型都给出了它们选择该特定AGI定义的令人印象深刻的理由。它们是否试图掩饰自己的懒惰？看来不太可能四者都这样做。

另一个念头浮现脑海。在之前的一次分析中，见链接这里，我指出主要的大型语言模型基本上是在相同数据上进行训练的。它们以大致相同的方式扫描互联网。它们的基础架构大致一致。人工智能研究已注意到主要的大型语言模型有许多共同点，并且很可能产生相似结果。我们已经可以猜测，ChatGPT与GPT-4o可能会有潜在的相似反应，因为它们都是OpenAI的产品。话虽如此，我经常从ChatGPT和GPT-4o得到截然不同的答案。它们不是完全相同的双胞胎。

无论如何，希望这个对你来说有趣，并且是一次开眼界的随意实验。我们现在是否已经有了一个初步的通用AGI定义？时间会给出答案。整个过程引发了一个相关的话题。如果一名人工智能研究员打算讨论和研究AGI，他们该如何制定AGI定义呢？

一种方法是向大型语言模型询问AGI定义。或者考虑类似的方法，询问多个大型语言模型，并尝试就哪个AGI定义看起来更好达成共识。从令人困惑的宏观哲学视角来看，思考说一个AGI定义优于另一个是什么意思。这个难题在于。如果我们没有一个普遍标准的AGI定义，你怎么能声称存在一个‘最佳’的AGI定义呢？这是一个典型的本末倒置问题。

好消息是，这些大型语言模型轻松解决了这个哲学问题，并给出了各自的答案。为生成式人工智能采取务实态度并顺利完成任务。

(以上内容均由Ai生成)