AI代理在自由职业工作中表现不佳,目前自动化率不足3%

发布时间:2025年11月5日    来源:szf
AI代理在自由职业工作中表现不佳,目前自动化率不足3%

快速阅读: 最新研究表明,顶级AI代理在自由职业工作中表现不佳,仅能自动化不到3%的任务。2025年,约43%的美国劳动力从事自由职业,AI难以完全替代人类工作。

据最新研究显示,顶级人工智能代理在自由职业工作中表现不佳。该研究评估了Gemini 2.5 Pro、GPT-5等模型。据统计,2025年接近一半的美国劳动力从事过自由职业工作。如果你是自由职业者,担心会被人工智能取代,可以暂时放心了。根据Scale AI和AI安全中心联合开展的研究,最先进的AI代理目前只能自动化独立承包商所需任务的不到3%,大多数项目无法达到实际自由职业环境中可接受的完成水平。

研究人员在预印服务器arXiv上发布了这项尚未经过同行评审的研究,提出了一个名为远程劳动指数(RLI)的测试基准,用于衡量AI系统执行经济价值工作的能力。这一基准旨在量化AI系统在远程自由职业工作中的表现,尤其是在一些科技领导者声称AI将对劳动力市场产生重大影响的背景下。例如,Anthropic首席执行官达里奥·阿莫迪曾在5月表示,未来五年内,技术可能取代高达50%的白领工作。

RLI特别设计用于评估AI在远程自由职业工作中的自动化潜力。这种工作模式需要高度的自我管理和组织能力,且越来越受欢迎。最近的一项调查显示,2025年约有7300万美国人从事自由职业工作,占美国总劳动力的近43%。

新研究评估了六个行业领先的AI代理的表现,包括谷歌的Gemini 2.5 Pro、OpenAI的GPT-5和Anthropic的Sonnet 4.5。这些代理能够与数字工具互动并执行复杂的多步骤任务,被视为向实现通用人工智能(AGI)发展的关键一步。尽管AGI的确切定义尚存在争议,但通常认为,AGI是指能够在任何具有经济价值的任务上匹配或超越人类表现的系统。

研究结果显示,所有测试的六种模型都远未达到自主完成远程劳动多样需求的能力。这些模型在23个自由职业工作类别中进行了评估,涵盖图形设计、产品设计、计算机辅助设计(CAD)和游戏开发等领域。评估标准基于Upwork等自由职业平台上的任务需求,确保基准反映经济价值并捕捉真实远程劳动市场的多样性和复杂性。

每个模型都被提供了一个项目简报及相关文件,以完成最终交付物,这些交付物由研究人员与人类自由职业者为同一项目创建的交付物进行手动对比评估。研究目标是确定AI交付物是否至少能像人类标准一样完成项目,特别是交付物是否会被合理客户视为委托作品。

在评估中,Manus得分最高,自动化率为2.5%,其次是Grok 4和Claude Sonnet 2.5,均为2.1%。这表明,尽管AI技术取得了显著进步,但在处理需要综合技术和人际交往能力的工作时,仍面临巨大挑战。大多数工作不仅涉及技术层面,还包含了人际交流等复杂因素,这是当前AI系统难以完全掌握的。

据微软称,这些工作面临最高的人工智能取代风险。即使当今最先进的AI系统被设计为通用代理,也仅能完成大多数人类工作者所需任务的一小部分。新RLI研究的作者在报告中写道,行业领先代理无法自动化平均自由职业者所需任务不到3%的事实揭示了“明显差距”,这表明AI的承诺与其实际可证明的能力之间存在显著差异。特别是考虑到RLI并未涵盖大多数自由职业者日常工作的许多方面,例如与客户的沟通和谈判。

不过,现在还处于早期阶段。代理的能力正在迅速扩展,最大的技术开发商正在投入数十亿美元来训练更新、更先进的模型。有可能在未来五到十年内,公司将开始雇佣AI自由职业者。但目前来看,合同工似乎没有理由真正担心AI会抢走他们的工作。

每天早上,您可以通过我们的科技更新通讯获取最新资讯。

(以上内容均由Ai生成)

你可能还想读

中国禁用外国AI芯片,强化国产技术自给自足

中国禁用外国AI芯片,强化国产技术自给自足

快速阅读: 中国政府发布新指导方针,要求国家资金支持的数据中心项目仅使用国产芯片,已建项目需移除或取消采购外国芯片。此举旨在减少对美国技术依赖,促进国内芯片产业发展。 中国政府已发布指导方针,要求所有获得国家资金支持的新数据中心项目只能使用 […]

发布时间:2025年11月5日
中国禁用外资AI芯片,国产替代加速推进

中国禁用外资AI芯片,国产替代加速推进

快速阅读: 中国政府发布指导方针,要求新建数据中心项目使用国产AI芯片,减少对外依赖。此举影响英伟达等外国芯片制造商,为中国本土企业如华为提供机会。 中国政府已发布指导方针,要求所有获得国家资金支持的新建数据中心项目只能使用国产人工智能芯片 […]

发布时间:2025年11月5日
韩国股市因AI泡沫担忧大跌近3%,韩元创7个月新低

韩国股市因AI泡沫担忧大跌近3%,韩元创7个月新低

快速阅读: 韩国KOSPI指数因科技股大跌下滑近3%,受隔夜美股因AI泡沫担忧影响,韩元兑美元汇率亦显著下跌。 周三,韩国综合股价指数(KOSPI)因大型科技股下跌而大幅下滑,跌幅接近3%,这主要是受到隔夜华尔街因人工智能泡沫担忧引发的暴跌 […]

发布时间:2025年11月5日
英伟达加入印度深度科技联盟,推动AI和半导体创新

英伟达加入印度深度科技联盟,推动AI和半导体创新

快速阅读: 美国芯片制造商英伟达加入20亿美元投资联盟,扩大印度业务,指导初创公司在半导体、AI等领域发展,助力印度成为全球创新中心。 美国芯片制造商英伟达通过加入一项专注于深度技术的20亿美元投资联盟,扩大了其在印度的业务版图,据CNBC […]

发布时间:2025年11月5日
亚马逊威胁阻止Perplexity AI助手在其平台购物

亚马逊威胁阻止Perplexity AI助手在其平台购物

快速阅读: AI搜索公司Perplexity AI指控亚马逊通过法律威胁阻止用户使用其AI助手Comet在亚马逊平台购物,称此举威胁互联网用户权益,旨在保护亚马逊广告业务。Perplexity拒绝屈服,将继续支持用户选择。 AI搜索公司Pe […]

发布时间:2025年11月5日
Anthropic推出新代码执行模式,大幅提升AI效率

Anthropic推出新代码执行模式,大幅提升AI效率

快速阅读: Anthropic推出基于MCP的代码执行模式,使AI Agent能高效调用工具,减少99%上下文占用,提升数据隐私安全,增强系统性能与可维护性。 近日,Anthropic 在其 最新 发布中介绍了基于 Model Contex […]

发布时间:2025年11月5日
小鹏汽车重磅发布第二代 VLA:颠覆传统,开创智能驾驶新时代

小鹏汽车重磅发布第二代 VLA:颠覆传统,开创智能驾驶新时代

快速阅读: 小鹏汽车在2025科技日推出第二代VLA模型,实现从视觉信号直接到动作指令的端到端输出,参数量达数十亿级,远超行业水平,助力智能驾驶等领域发展。 在2025小鹏科技日盛会上,小鹏汽车推出了其第二代VLA(视觉-语言-动作)模型, […]

发布时间:2025年11月5日
王兴兴:今年智能机器人产业平均增速应有100%,想全球领先要实现两个80%

王兴兴:今年智能机器人产业平均增速应有100%,想全球领先要实现两个80%

快速阅读: 宇树科技创始人王兴兴在第八届虹桥国际经济论坛上表示,中国工业机器人出口增长超51%,智能机器人产业有望实现100%增长。宇树的第二款人形机器人G1广受好评,第三款R1预计2026年成全球出货量最多的小型人形机器人。 王兴兴在论坛 […]

发布时间:2025年11月5日