AI 代理如何擅长使用工具
快速阅读: 《了解 AI》消息,特工周第二天,本文仅限订阅者。ChatGPT初期无法与外部互动,后推出插件和GPT未获成功。Anthropic采用不同策略,推动AI代理发展,MCP成为行业标准,提升AI能力。
特工周的第二天!本帖仅限订阅者,所以如果你还不是付费订阅者,我建议你点击这里,享受年度订阅20%的折扣。
当ChatGPT于2022年首次发布时,它缺少一个重要能力:与外部世界互动的能力。它可以给出一般的旅游建议,但无法搜索可用的航班或酒店。它在编写和调试计算机代码方面出乎意料地出色,但用户必须手动将代码复制到聊天窗口中,然后复制结果出来。它无法访问如Google Docs、Slack、Notion或Asana这样的工作平台。
在2023年的一篇文章中,我曾认为这是一个战略机遇,对于OpenAI来说,如果OpenAI发明了一种LLM与更广泛的互联网进行通信的标准方式,它就可以像App Store对iPhone长期成功所起的作用一样,巩固ChatGPT在聊天机器人领域的主导地位。但事实并非如此。
2023年3月,在GPT-4发布几天后,OpenAI宣布了插件。这些插件使用户能够从ChatGPT内部使用Expedia、OpenTable和Instacart等服务。但插件并没有得到太多使用。
然后在2023年秋季,OpenAI用GPT替换了插件。这些是针对特定用途优化的定制聊天机器人。一个GPT可以有一个称为“动作”的功能,使其能够与第三方服务进行通信。用户可能不再通过普通ChatGPT访问Expedia,而是使用专门的旅行聊天机器人,该机器人具有与Expedia和其他旅行相关服务交流的能力。但GPT也没有真正受到消费者的欢迎。
2023年3月,在GPT-4发布几天后,OpenAI宣布了插件。这些插件使用户能够从ChatGPT内部使用Expedia、OpenTable和Instacart等服务。但插件并没有得到太多使用。
Anthropic采取了不同的方法。与其专注于其消费者聊天机器人,Anthropic优先考虑用于企业应用的工具使用代理。这一策略在2024年6月Claude 3.5 Sonnet发布后开始获得势头。正如我上个月写的那样,这个模型使得Bolt.new、Loveable和Cursor等编码平台开始获得发展。
然后在11月,Anthropic宣布了Model Context Protocol(模型上下文协议),该协议将模型连接到外部工具。MCP在几个月内迅速成为行业标准:
OpenAI于3月采用了它,
而Google则随后跟进。
长推理模型和开放的MCP标准的结合意味着整个行业正进入强大的AI代理时代。下一代AI系统不仅能够回答抽象问题。它们能够查找关于你或你的公司的具体信息,并为你采取行动。它们还能够解决可能需要人类工人几分钟、几小时甚至几天的问题。
这种转变已经发生在一些程序员身上,他们越来越花时间审查由AI系统编写的代码,而不是自己编写代码。我预计其他职业将在未来几年,甚至几个月内,开始出现类似的趋势。
在这篇文章中,我想解释工具使用AI的基础知识。我将解释LLM如何使用外部工具的简单机制,以及为什么工具和长期推理如同花生酱和果冻般密不可分。然后,我将讨论最近几个月MCP的迅速崛起如何使AI代理的能力大幅提高。
(以上内容均由Ai生成)