AI代理在自由职业工作中表现不佳,目前自动化率不足3%
快速阅读: 最新研究表明,顶级AI代理在自由职业工作中表现不佳,仅能自动化不到3%的任务。2025年,约43%的美国劳动力从事自由职业,AI难以完全替代人类工作。
据最新研究显示,顶级人工智能代理在自由职业工作中表现不佳。该研究评估了Gemini 2.5 Pro、GPT-5等模型。据统计,2025年接近一半的美国劳动力从事过自由职业工作。如果你是自由职业者,担心会被人工智能取代,可以暂时放心了。根据Scale AI和AI安全中心联合开展的研究,最先进的AI代理目前只能自动化独立承包商所需任务的不到3%,大多数项目无法达到实际自由职业环境中可接受的完成水平。
研究人员在预印服务器arXiv上发布了这项尚未经过同行评审的研究,提出了一个名为远程劳动指数(RLI)的测试基准,用于衡量AI系统执行经济价值工作的能力。这一基准旨在量化AI系统在远程自由职业工作中的表现,尤其是在一些科技领导者声称AI将对劳动力市场产生重大影响的背景下。例如,Anthropic首席执行官达里奥·阿莫迪曾在5月表示,未来五年内,技术可能取代高达50%的白领工作。
RLI特别设计用于评估AI在远程自由职业工作中的自动化潜力。这种工作模式需要高度的自我管理和组织能力,且越来越受欢迎。最近的一项调查显示,2025年约有7300万美国人从事自由职业工作,占美国总劳动力的近43%。
新研究评估了六个行业领先的AI代理的表现,包括谷歌的Gemini 2.5 Pro、OpenAI的GPT-5和Anthropic的Sonnet 4.5。这些代理能够与数字工具互动并执行复杂的多步骤任务,被视为向实现通用人工智能(AGI)发展的关键一步。尽管AGI的确切定义尚存在争议,但通常认为,AGI是指能够在任何具有经济价值的任务上匹配或超越人类表现的系统。
研究结果显示,所有测试的六种模型都远未达到自主完成远程劳动多样需求的能力。这些模型在23个自由职业工作类别中进行了评估,涵盖图形设计、产品设计、计算机辅助设计(CAD)和游戏开发等领域。评估标准基于Upwork等自由职业平台上的任务需求,确保基准反映经济价值并捕捉真实远程劳动市场的多样性和复杂性。
每个模型都被提供了一个项目简报及相关文件,以完成最终交付物,这些交付物由研究人员与人类自由职业者为同一项目创建的交付物进行手动对比评估。研究目标是确定AI交付物是否至少能像人类标准一样完成项目,特别是交付物是否会被合理客户视为委托作品。
在评估中,Manus得分最高,自动化率为2.5%,其次是Grok 4和Claude Sonnet 2.5,均为2.1%。这表明,尽管AI技术取得了显著进步,但在处理需要综合技术和人际交往能力的工作时,仍面临巨大挑战。大多数工作不仅涉及技术层面,还包含了人际交流等复杂因素,这是当前AI系统难以完全掌握的。
据微软称,这些工作面临最高的人工智能取代风险。即使当今最先进的AI系统被设计为通用代理,也仅能完成大多数人类工作者所需任务的一小部分。新RLI研究的作者在报告中写道,行业领先代理无法自动化平均自由职业者所需任务不到3%的事实揭示了“明显差距”,这表明AI的承诺与其实际可证明的能力之间存在显著差异。特别是考虑到RLI并未涵盖大多数自由职业者日常工作的许多方面,例如与客户的沟通和谈判。
不过,现在还处于早期阶段。代理的能力正在迅速扩展,最大的技术开发商正在投入数十亿美元来训练更新、更先进的模型。有可能在未来五到十年内,公司将开始雇佣AI自由职业者。但目前来看,合同工似乎没有理由真正担心AI会抢走他们的工作。
每天早上,您可以通过我们的科技更新通讯获取最新资讯。
(以上内容均由Ai生成)