浏览器使用代理的兴起：为什么 Convergence 的代理击败了 OpenAI 的运营商

快速阅读: 《VentureBeat 公司》消息，订阅我们的每日和每周通讯，获取人工智能行业的最新动态和独家内容。新一代由AI驱动的浏览器使用代理正在涌现，有望改变企业与网络互动的方式。尽管已有多个代理在开发中，但其表现与预期仍有差距。关键问题是实际应用案例和主要开发者的参与度不足。企业需谨慎评估这些工具，因为它们在自动化和安全性方面存在差异。

订阅我们的每日和每周通讯，获取行业领先的人工智能最新动态和独家内容。了解更多新一代由人工智能驱动的浏览器使用代理正在涌现，有望改变企业与网络互动的方式。这些代理可以自主浏览网站、检索信息，甚至完成交易——但早期测试显示，其承诺与实际表现之间存在显著差距。虽然OpenAI的新浏览器使用代理Operator提供的消费者示例，如订购比萨或购买游戏门票，吸引了媒体关注，但关键问题在于主要开发人员和企业用例在哪里。“我们不知道的是什么将成为杀手级应用，”Red Dragon公司的联合创始人山姆·威特韦恩说，该公司开发人工智能代理应用程序。“我猜它将是那些你并不真正喜欢但在网上花费时间的事情。”这包括上网搜索产品最便宜的价格或预订最好的酒店住宿。更有可能的是，它将与其他工具如深度研究结合使用，使公司能够进行更复杂的网络研究和任务执行。企业需要仔细评估快速发展的格局，因为既有参与者和初创公司正以不同的方式解决自主浏览挑战。浏览器使用代理领域的关键玩家该领域迅速变得拥挤，既有大型科技公司也有创新的初创公司：OpenAI的Operator（2025年1月发布）——可供ChatGPT Pro订阅者（每月200美元）使用，专注于消费者友好的网页自动化。Convergence的Proxy（2024年12月发布）——英国初创公司提供免费有限使用（每天5次会话）或每月20美元的无限制访问。谷歌的Project Mariner——目前正在进行预览测试，并有等待名单。Anthropic的Computer Use（2024年10月发布）——预计很快发布更新。微软的OmniParser V2（2025年2月发布）——一个开源项目，用于将UI截图转换为结构化数据，允许大语言模型解释和与网站交互。字节跳动的UI-TARS——需要更深层次的系统访问，引发潜在的安全担忧。Browser-Use——一个面向开发者的工具，允许选择AI模型，包括谷歌的Gemini 2.0 Flash。Operator和Proxy是最先进的，从消费者友好和开箱即用的角度来看。其他许多则定位为开发者或企业使用。例如，Browser-Use，一个由Y-Combinator支持的初创公司，允许用户自定义与代理一起使用的模型。这让你对代理的工作方式有更多的控制，包括使用本地机器上的模型。但这肯定更复杂。上述其他工具提供了不同程度的功能和与本地机器资源的交互。我决定暂时不测试字节跳动的UI-TARS，因为它请求了我对机器安全和隐私功能的低级别访问（如果我测试它，我肯定会使用一台备用电脑）。测试揭示了推理挑战因此，最容易测试的是OpenAI的Operator和Convergence的Proxy。在我们的测试中，结果突显了推理能力可能比原始自动化功能更重要。尤其是Operator出现了更多问题。例如，我要求代理找到并总结VentureBeat的五个最受欢迎的故事。这是一个模糊的任务，因为VentureBeat并没有明确的“最受欢迎”部分。Operator在这方面遇到了困难。它首先陷入了无限滚动循环，试图寻找“最受欢迎”的故事，需要手动干预。在另一次尝试中，它找到了一篇三年前的文章《本周五大故事》。相比之下，Proxy通过识别主页上最显眼的五个故事作为受欢迎程度的实际替代指标，展示了更好的推理能力，并给出了准确的总结。在现实世界任务中的区别更加明显。我要求代理为加州纳帕中午时分预订一家浪漫餐厅。Operator按线性方式处理任务——先找到一家浪漫餐厅，然后检查中午是否有空位。当没有桌子可用时，它陷入了僵局。Proxy则展示了更复杂的推理能力，从OpenTable开始查找既浪漫又有空位的餐厅。它甚至找了一家评分略高的餐厅。即使是看似简单的任务也揭示了重要差异。在亚马逊上搜索“YubiKey 5C NFC价格”时，Proxy比Operator更容易找到商品。OpenAI尚未透露其用于训练Operator代理的技术细节，只是表示其模型是在网页使用任务上训练的。然而，Convergence提供了更多细节：其代理使用了一种称为生成树搜索的技术，“利用预测网页状态的Web-World模型”。这些模型递归生成可能未来的树状结构，以搜索选择下一个最优行动，根据价值模型进行排名。其Web-World模型还可以在不生成大量昂贵数据的情况下训练代理在假设情景中。（更多信息请参阅此处）。基准测试可能目前无用从纸面上看，这些工具似乎非常接近。Convergence的Proxy在WebVoyager基准测试中达到88%，该基准测试在15个流行网站如亚马逊和Booking.com上评估了643个真实世界任务。OpenAI的Operator得分为87%，而Browser-Use声称其达到89%，但仅在略微修改WebVoyager代码库后才如此，它承认，“根据我们的需求”。然而，这些基准分数应谨慎看待，因为它们可能会被操纵。真正的考验是实际使用中的表现。目前还处于早期阶段，这个领域变化极快，这些产品几乎每天都在变化。结果将取决于你具体要做的工作，你可能更愿意依赖在使用不同产品时的感觉。企业影响这些浏览器使用代理对企业自动化的影响是巨大的。正如威特韦恩在我们的视频播客对话中指出的那样，在深入探讨这一浏览器使用趋势时，许多公司当前付费给真人操作的虚拟助手来处理基本的网络研究和数据收集任务。这些浏览器使用代理可能会彻底改变这种局面。“如果人工智能接手这些任务，”威特韦恩指出，“那将是人们失去工作的第一批低垂果实。这将在某些方面显现出来。”这可能会促进机器人流程自动化（RPA）的趋势，其中浏览器使用只是公司用来自动化更多任务的另一种工具。正如之前提到的，更强大的应用场景将是当代理结合浏览器使用与其他工具时，包括像深度研究这样的工具，其中大语言模型驱动的代理使用搜索引擎加浏览器使用来完成更复杂的任务。成本动态推动创新另一个推动快速发展的重要因素是强大开源推理模型如深度寻址R1的可用性。这使得构建这些浏览器使用代理的公司能够通过利用这些模型而不是自行开发来有效竞争。定价压力已经显现。尽管OpenAI要求每月200美元的ChatGPT Pro订阅才能访问Operator，Convergence提供有限的免费使用（每天最多5次）和每月20美元的无限制计划。这种竞争动态应该加速企业的采用，尽管明确的应用案例仍在出现。安全和集成挑战在广泛的企业采用之前，仍有许多障碍需要克服。一些网站积极阻止自动浏览，而另一些则需要CAPTCHA验证。虽然OpenAI和Convergence都有工具可以绕过CAPTCHA，但它们让用户接管任务填写，而不是直接处理，因为CAPTCHA的整个目的是确保另一端是一个人。像字节跳动的UI-TARS这样的工具请求深度系统访问，这引发了企业部署的安全担忧。此外，对网站合作的方法也有所不同。OpenAI与特定合作伙伴如Instacart、Priceline、DoorDash和Etsy合作，而其他公司则试图导航任何网站。这种不一致性可能会影响企业用例的可靠性。当然，每当代理访问需要登录的网站时，这都会减慢速度——因为代理会将这些细节交给你来填写。展望未来对于评估这些工具的企业来说，重点应该是特定用例，其中自主网络互动可以提供明确的价值——无论是在研究、客户服务还是过程自动化中。技术进步迅速，但成功将取决于匹配能力与具体的业务需求。随着这一领域的演变，预计将看到更多面向企业的功能，甚至可能出现针对特定行业或任务的专业代理。既有参与者和创新初创公司之间的竞赛应该推动技术创新和竞争定价，使2025年成为企业浏览器使用代理采用的关键一年。有关这些趋势和测试结果的更多详情，请查看我和威特韦恩的完整视频对话。每日商业用例洞察如果您想给老板留下深刻印象，VB Daily可以帮到您。我们为您提供公司如何使用生成式人工智能的内部消息，从监管变化到实际部署，以便您可以分享见解以获得最大回报。立即订阅阅读我们的隐私政策感谢订阅。

(以上内容均由Ai生成)