OpenAI 认为 LLM 可以从自由软件工程任务中赚取 $1M
快速阅读: 据《印度分析杂志》称,OpenAI推出了SWELancer基准测试,旨在评估顶尖大型语言模型(LLMs)能否有效完成现实世界的自由职业软件工程任务,总奖金达100万美元。该测试基于Upwork上的1,488个任务,涵盖从50美元的小修小补到32,000美元的大项目。OpenAI表示,这比之前的评估更为真实。Anthropic的一项调查显示,尽管AI在软件开发等领域应用广泛,但仍主要辅助人类而非完全替代。这两项研究共同展示了AI在职场中的现状及未来趋势。
OpenAI引入了SWELancer,一个新的基准测试,用于检验前沿大型语言模型(LLMs)是否能够成功完成现实世界中的自由职业软件工程任务,甚至总奖金可达100万美元。该评估基于Upwork上1,488个自由职业软件工程工作,总价值为100万美元。SWELancer包含超过1,400个软件工程任务,项目范围从修复错误的50美元到实现功能的32,000美元。“引入SWELancer:迄今为止我们最真实的编码基准。仍有一些限制,但比以前的评估更好,”OpenAI负责基准和准备团队的泰贾尔·帕特瓦丹表示。这些任务分为独立的工程技术任务,模型必须完成具体的技术工作;以及管理决策任务,模型需要评估并选择实施方案。通过将AI模型的表现与实际货币价值挂钩,SWELancer为研究AI在软件开发中的经济影响提供了关键工具。更多信息可在此处查阅。
开发克劳德模型系列的公司Anthropic还发布了一项调查,突显了AI对工作场所的影响。调查显示,约36%的工作岗位中有至少四分之一的任务使用了AI。此外,57%的AI应用增强了人类能力,而43%的应用则侧重于自动化。然而,只有4%的职业依赖AI完成至少75%的任务。这项研究指出,软件开发和技术写作是AI应用的主要领域。相比之下,AI在涉及物理环境互动的任务中作用有限。调查显示,约36%的工作岗位中有至少四分之一的任务使用了AI。此外,57%的AI应用增强了人类能力,而43%的应用则侧重于自动化。然而,只有4%的职业依赖AI完成至少75%的任务。
(以上内容均由Ai生成)