AI Coding Systems 作为自由职业者可以赚取 100 万美元吗?
快速阅读: 据《Discover 杂志》称,一项新研究通过SWE-Lancer基准测试,评估了先进的大型语言模型(LLMs)能否独立完成真实的自由职业软件开发任务。结果显示,虽然AI系统如Claude 3.5表现出色,但它们仍无法完全替代人类开发者。AI在管理任务上表现更好,但在复杂编码任务上仍有局限。未来,AI有望自动化常规编码任务,让人类开发者专注于更高级的问题解决。
自由职业软件工程是一个利润丰厚且充满活力的领域,技能娴熟的开发者面临从修复漏洞到全栈功能开发的各种挑战。近年来,这些工作者是最早将人工智能系统融入工作流程以帮助编写代码的人之一。这引发了一个有趣的问题:一个人工智能系统能否独自完成这项工作?换句话说,软件工程师是否已经通过自己的工作让自己变得多余?现在,由于塞缪尔·米泽伦迪诺、米歇尔·王和开放人工智能研究团队的工作,我们得到了某种答案。他们开发了一种基准测试工具,用于确定最先进的大型语言模型(LLMs)是否能够完成一组由人类解决的实际软件开发任务。这些人类开发者在此过程中赚取了100万美元,从而引发了明显的疑问:人工智能系统能否独自赚取生活费?这个答案对人类开发者来说只能提供有限的安慰。“我们的基准测试中的现实自由职业工作对于前沿语言模型仍然具有挑战性,”米泽伦迪诺、王及其同事说。尽管如此,他们计算出最好的模型可以成功赚取100万美元中相当大的一部分。
代码红软件工程远不止写代码。工程师必须解读客户需求,导航复杂的代码库,并就正确的途径做出高层架构决策。现实中的自由职业工作需要全栈开发、调试和管理技能。评估大型语言模型在这些任务上的表现很棘手,因为大多数基准涉及标准编码问题,这仅占自由职业者挑战的一小部分。米泽伦迪诺、王及其同事着手改变这一点,通过创建一个数据库,其中包含以前由人类自由职业者解决的真实软件工程任务。他们将其基准称为SWE-Lancer,并希望它能成为测试高级大型语言模型实际编码性能的标准。该团队从经验迪夫公司获取了自由职业任务,这是一家拥有1200万客户使用的费用管理系统的企业。该软件需要持续维护和发展,为此公司依赖自由职业者。经验迪夫将这些编程任务公开,并发布到自由职业者网站Upwork上。开放人工智能团队选择了其中的1488项任务。大约一半的任务针对个人程序员,包括开发补丁以解决实际问题。另一半任务面向管理者,涉及从人类自由职业者提交的竞争提案中选择最佳方案。所有任务均由人类自由职业者完成,薪酬从250美元到32,000美元不等。这些任务的总价值为100万美元。
为了检验当前最先进的语言模型,团队将每个任务分配给安特里克公司的克劳德3.5索内特、开放人工智能的GPT-4o和o1模型。人工智能系统获得了描述问题的文本,以及修复前的代码快照和修复问题的目标。对于管理任务,模型获得了各种建议的解决方案、待修复代码的快照以及选择最合适解决方案的目标。结果令人瞩目。“索内特3.5表现最好,其次是o1,然后是GPT-4o,”米泽伦迪诺、王及其同事说。但它们远非完美。“所有模型在完整的SWE-Lancer数据集上获得的收入远低于可能的100万美元。”然而,某些问题有健康的回报。“在完整的SWE-Lancer数据集中,克劳德3.5索内特赚取了超过40万美元。”这似乎是一个合理的收入,对于使用人工智能辅助工作的自由职业开发者而言。但显然存在局限性。人工智能系统在管理任务上的表现优于在个人编码任务上的表现,后者往往只提供表面修复而未能解决根本问题。这表明人工智能更擅长评估解决方案而非实施它们。总体而言,人工智能系统只能处理不到50%的可用任务,这使团队得出一个严肃的结论。“我们的基准测试中的现实自由职业工作对于前沿语言模型仍然具有挑战性。”
金钱收益团队表示,大型语言模型无法超越人类自由职业者的原因有几个基本问题。例如,人工智能模型缺乏深入理解代码的能力——它们只是模式生成器。人类工程师还迭代地优化他们的解决方案,运行测试并调试意外行为,这种方法是大型语言模型难以复制的。尽管如此,SWE-Lancer基准测试揭示了令人兴奋的潜力。它表明人工智能助手很可能帮助自动化常规编码任务,从而使人类开发者专注于更高层次的问题解决。研究人员没有详细关注的是人类与机器完成任务所需的时间。可能是人工智能系统目前在某些任务上并不比人类更好,但它们的速度更快。这无疑将在商业规划中发挥作用。但他们展示了某些任务非常适合自动化,而且很可能已经被有进取心的自由职业者和企业采用。随着模型能力的提高,这一比例可能会增加。根据人工智能模型在其他高级数学问题等基准测试中的改进,这种改进很可能会迅速加速。显然,颠覆性变革的时代已经来临。
(以上内容均由Ai生成)