AI Coding Systems 作为自由职业者可以赚取 100 万美元吗?

发布时间:2025年2月22日    来源:szf
AI Coding Systems 作为自由职业者可以赚取 100 万美元吗?

快速阅读: 据《Discover 杂志》称,一项新研究通过SWE-Lancer基准测试,评估了先进的大型语言模型(LLMs)能否独立完成真实的自由职业软件开发任务。结果显示,虽然AI系统如Claude 3.5表现出色,但它们仍无法完全替代人类开发者。AI在管理任务上表现更好,但在复杂编码任务上仍有局限。未来,AI有望自动化常规编码任务,让人类开发者专注于更高级的问题解决。

自由职业软件工程是一个利润丰厚且充满活力的领域,技能娴熟的开发者面临从修复漏洞到全栈功能开发的各种挑战。近年来,这些工作者是最早将人工智能系统融入工作流程以帮助编写代码的人之一。这引发了一个有趣的问题:一个人工智能系统能否独自完成这项工作?换句话说,软件工程师是否已经通过自己的工作让自己变得多余?现在,由于塞缪尔·米泽伦迪诺、米歇尔·王和开放人工智能研究团队的工作,我们得到了某种答案。他们开发了一种基准测试工具,用于确定最先进的大型语言模型(LLMs)是否能够完成一组由人类解决的实际软件开发任务。这些人类开发者在此过程中赚取了100万美元,从而引发了明显的疑问:人工智能系统能否独自赚取生活费?这个答案对人类开发者来说只能提供有限的安慰。“我们的基准测试中的现实自由职业工作对于前沿语言模型仍然具有挑战性,”米泽伦迪诺、王及其同事说。尽管如此,他们计算出最好的模型可以成功赚取100万美元中相当大的一部分。

代码红软件工程远不止写代码。工程师必须解读客户需求,导航复杂的代码库,并就正确的途径做出高层架构决策。现实中的自由职业工作需要全栈开发、调试和管理技能。评估大型语言模型在这些任务上的表现很棘手,因为大多数基准涉及标准编码问题,这仅占自由职业者挑战的一小部分。米泽伦迪诺、王及其同事着手改变这一点,通过创建一个数据库,其中包含以前由人类自由职业者解决的真实软件工程任务。他们将其基准称为SWE-Lancer,并希望它能成为测试高级大型语言模型实际编码性能的标准。该团队从经验迪夫公司获取了自由职业任务,这是一家拥有1200万客户使用的费用管理系统的企业。该软件需要持续维护和发展,为此公司依赖自由职业者。经验迪夫将这些编程任务公开,并发布到自由职业者网站Upwork上。开放人工智能团队选择了其中的1488项任务。大约一半的任务针对个人程序员,包括开发补丁以解决实际问题。另一半任务面向管理者,涉及从人类自由职业者提交的竞争提案中选择最佳方案。所有任务均由人类自由职业者完成,薪酬从250美元到32,000美元不等。这些任务的总价值为100万美元。

为了检验当前最先进的语言模型,团队将每个任务分配给安特里克公司的克劳德3.5索内特、开放人工智能的GPT-4o和o1模型。人工智能系统获得了描述问题的文本,以及修复前的代码快照和修复问题的目标。对于管理任务,模型获得了各种建议的解决方案、待修复代码的快照以及选择最合适解决方案的目标。结果令人瞩目。“索内特3.5表现最好,其次是o1,然后是GPT-4o,”米泽伦迪诺、王及其同事说。但它们远非完美。“所有模型在完整的SWE-Lancer数据集上获得的收入远低于可能的100万美元。”然而,某些问题有健康的回报。“在完整的SWE-Lancer数据集中,克劳德3.5索内特赚取了超过40万美元。”这似乎是一个合理的收入,对于使用人工智能辅助工作的自由职业开发者而言。但显然存在局限性。人工智能系统在管理任务上的表现优于在个人编码任务上的表现,后者往往只提供表面修复而未能解决根本问题。这表明人工智能更擅长评估解决方案而非实施它们。总体而言,人工智能系统只能处理不到50%的可用任务,这使团队得出一个严肃的结论。“我们的基准测试中的现实自由职业工作对于前沿语言模型仍然具有挑战性。”

金钱收益团队表示,大型语言模型无法超越人类自由职业者的原因有几个基本问题。例如,人工智能模型缺乏深入理解代码的能力——它们只是模式生成器。人类工程师还迭代地优化他们的解决方案,运行测试并调试意外行为,这种方法是大型语言模型难以复制的。尽管如此,SWE-Lancer基准测试揭示了令人兴奋的潜力。它表明人工智能助手很可能帮助自动化常规编码任务,从而使人类开发者专注于更高层次的问题解决。研究人员没有详细关注的是人类与机器完成任务所需的时间。可能是人工智能系统目前在某些任务上并不比人类更好,但它们的速度更快。这无疑将在商业规划中发挥作用。但他们展示了某些任务非常适合自动化,而且很可能已经被有进取心的自由职业者和企业采用。随着模型能力的提高,这一比例可能会增加。根据人工智能模型在其他高级数学问题等基准测试中的改进,这种改进很可能会迅速加速。显然,颠覆性变革的时代已经来临。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日