AI代理在自由职业工作中表现不佳,目前自动化率不足3%

发布时间:2025年11月5日    来源:szf
AI代理在自由职业工作中表现不佳,目前自动化率不足3%

快速阅读: 最新研究表明,顶级AI代理在自由职业工作中表现不佳,仅能自动化不到3%的任务。2025年,约43%的美国劳动力从事自由职业,AI难以完全替代人类工作。

据最新研究显示,顶级人工智能代理在自由职业工作中表现不佳。该研究评估了Gemini 2.5 Pro、GPT-5等模型。据统计,2025年接近一半的美国劳动力从事过自由职业工作。如果你是自由职业者,担心会被人工智能取代,可以暂时放心了。根据Scale AI和AI安全中心联合开展的研究,最先进的AI代理目前只能自动化独立承包商所需任务的不到3%,大多数项目无法达到实际自由职业环境中可接受的完成水平。

研究人员在预印服务器arXiv上发布了这项尚未经过同行评审的研究,提出了一个名为远程劳动指数(RLI)的测试基准,用于衡量AI系统执行经济价值工作的能力。这一基准旨在量化AI系统在远程自由职业工作中的表现,尤其是在一些科技领导者声称AI将对劳动力市场产生重大影响的背景下。例如,Anthropic首席执行官达里奥·阿莫迪曾在5月表示,未来五年内,技术可能取代高达50%的白领工作。

RLI特别设计用于评估AI在远程自由职业工作中的自动化潜力。这种工作模式需要高度的自我管理和组织能力,且越来越受欢迎。最近的一项调查显示,2025年约有7300万美国人从事自由职业工作,占美国总劳动力的近43%。

新研究评估了六个行业领先的AI代理的表现,包括谷歌的Gemini 2.5 Pro、OpenAI的GPT-5和Anthropic的Sonnet 4.5。这些代理能够与数字工具互动并执行复杂的多步骤任务,被视为向实现通用人工智能(AGI)发展的关键一步。尽管AGI的确切定义尚存在争议,但通常认为,AGI是指能够在任何具有经济价值的任务上匹配或超越人类表现的系统。

研究结果显示,所有测试的六种模型都远未达到自主完成远程劳动多样需求的能力。这些模型在23个自由职业工作类别中进行了评估,涵盖图形设计、产品设计、计算机辅助设计(CAD)和游戏开发等领域。评估标准基于Upwork等自由职业平台上的任务需求,确保基准反映经济价值并捕捉真实远程劳动市场的多样性和复杂性。

每个模型都被提供了一个项目简报及相关文件,以完成最终交付物,这些交付物由研究人员与人类自由职业者为同一项目创建的交付物进行手动对比评估。研究目标是确定AI交付物是否至少能像人类标准一样完成项目,特别是交付物是否会被合理客户视为委托作品。

在评估中,Manus得分最高,自动化率为2.5%,其次是Grok 4和Claude Sonnet 2.5,均为2.1%。这表明,尽管AI技术取得了显著进步,但在处理需要综合技术和人际交往能力的工作时,仍面临巨大挑战。大多数工作不仅涉及技术层面,还包含了人际交流等复杂因素,这是当前AI系统难以完全掌握的。

据微软称,这些工作面临最高的人工智能取代风险。即使当今最先进的AI系统被设计为通用代理,也仅能完成大多数人类工作者所需任务的一小部分。新RLI研究的作者在报告中写道,行业领先代理无法自动化平均自由职业者所需任务不到3%的事实揭示了“明显差距”,这表明AI的承诺与其实际可证明的能力之间存在显著差异。特别是考虑到RLI并未涵盖大多数自由职业者日常工作的许多方面,例如与客户的沟通和谈判。

不过,现在还处于早期阶段。代理的能力正在迅速扩展,最大的技术开发商正在投入数十亿美元来训练更新、更先进的模型。有可能在未来五到十年内,公司将开始雇佣AI自由职业者。但目前来看,合同工似乎没有理由真正担心AI会抢走他们的工作。

每天早上,您可以通过我们的科技更新通讯获取最新资讯。

(以上内容均由Ai生成)

你可能还想读

马斯克旗下AI聊天机器人Grok因诽谤苏格兰议员道歉

马斯克旗下AI聊天机器人Grok因诽谤苏格兰议员道歉

快速阅读: Grok因错误称苏格兰议员威沙特为“强奸帮凶”而向其公开道歉。Grok为马斯克所有,常因其政治言论引发争议。威沙特对此表示震惊,强调AI应基于事实服务。 资深苏格兰民族党(SNP)议员皮特·威沙特从埃隆·马斯克拥有的AI聊天机器 […]

发布时间:2025年11月5日
AI大模型影响搜索,RAO成企业新挑战

AI大模型影响搜索,RAO成企业新挑战

快速阅读: 随着用户转向AI获取信息,企业需优化内容适应检索增强优化(RAO)。RAO使内容对大型语言模型有用,强调可信度、内容质量和新鲜度,有助于建立消费者信任。 随着用户从搜索引擎转向人工智能来获取信息,企业需要优化其生产和发布的任何内 […]

发布时间:2025年11月5日
Womp推出AI平台,简化3D模型创建与打印

Womp推出AI平台,简化3D模型创建与打印

快速阅读: Womp推出基于浏览器的AI平台,用户可通过文本或图片生成3D模型,平台支持全彩多材料输出及实体打印,简化3D设计与生产流程,无需专业技能。 一款基于浏览器的3D建模和打印服务Womp推出了一项生成式人工智能平台,旨在让3D模型 […]

发布时间:2025年11月5日
OpenAI面临监管压力,市场仍快速增长

OpenAI面临监管压力,市场仍快速增长

快速阅读: 美国两党参议员推动立法,禁止未成年人使用人工智能伴侣,要求严格年龄验证,威胁对鼓励自残行为的AI公司实施刑事处罚,显示立法者担忧加剧,尽管市场持续增长。 与此同时,监管环境依然混乱。来自密苏里州的共和党参议员乔什·霍利和来自康涅 […]

发布时间:2025年11月5日
约克郡警方AI试验成功,每年节省超2.3万小时警力时间

约克郡警方AI试验成功,每年节省超2.3万小时警力时间

快速阅读: 胡默塞德警察局与多家机构合作开展“莫里亚蒂项目”,测试AI工具Cecil,基于官方政策知识库构建,助警官实时获取指导,预计每年节省超23,000小时,有效应对警队经验不足问题。 约克郡警方试用的一款新AI工具被评价为成功,预计每 […]

发布时间:2025年11月5日
特斯拉宣布2027年大规模生产AI5芯片

特斯拉宣布2027年大规模生产AI5芯片

快速阅读: 特斯拉宣布2026年小规模生产AI5芯片,2027年大规模制造,由台积电和三星代工。AI6芯片性能预计为AI5两倍,2028年中期量产,使用相同生产线。AI7需新生产线,设计更冒险。马斯克称AI5适合低参数模型,成本低且性能优。 […]

发布时间:2025年11月5日
亚洲股市大跌,AI公司估值过高引发担忧

亚洲股市大跌,AI公司估值过高引发担忧

快速阅读: 韩国南部因连续强降雨引发洪水,股市受影响,Kospi指数下跌超6%,日经225指数下滑超4%。美元兑韩元汇率降至七个月低点,Palantir股价大跌近8%,引发市场对人工智能股票估值过高担忧。 受连续强降雨影响,韩国南部多地区发 […]

发布时间:2025年11月5日
AI崛起暴露企业数据管理短板,63%技术领袖称公司难驱业务优先级

AI崛起暴露企业数据管理短板,63%技术领袖称公司难驱业务优先级

快速阅读: Salesforce报告显示,63%的商业领袖认为其组织非常依赖数据,但仅50%有信心及时提供洞察。AI加速数据应用,但数据信心不足限制决策。 63%的商业领袖表示他们的组织非常依赖数据,这一比例比2023年提高了10%。然而, […]

发布时间:2025年11月5日