AI工具联手解决重大bug,人类监督仍不可替代
快速阅读: 开发者利用AI工具Codex和Deep Research解决编程难题,Codex在处理大规模代码时遇阻,而Deep Research成功定位问题,优化后网站恢复正常运行,证明AI在特定情境下仍需人类指导。
monsitj/iStock/Getty Images Plus
ZDNET 关键要点:
– Codex 在处理复杂代码库的大局调试时遇到困难。
– Deep Research 在面对大量代码上下文时表现出色。
– 人类测试和监督在 AI 编码过程中仍至关重要。
“咦?!” 当我在编程时,有时代码行为异常,而我对此感到困惑不解,我的大脑会发出一个内部的“咦?!”这可能是我意识到“这里有潜在问题”,但又不至于陷入全面恐慌的方式。
在我将 AI 编程产品化的几天里,在经历了四天高强度的 AI 辅助编程冲刺之后,某些事情似乎不太对劲。起初,这并不显得非常严重(这其实是一个误判,因为情况确实很严重)。
此外:
– 我用 200 美元在四天内完成了四年的产品开发,至今仍感到惊讶。
– 最终,我利用 OpenAI 的 Codex 和 ChatGPT 解决了问题。
– 深度研究的重要性。
首先,让我们解析这个“咦?!”
– 这到底是不是一个错误?
这一切发生在我大范围编码冲刺之后。我为我的安全产品构建了四个附加组件。主要编码完成后,还有大量的工作要做,包括市场营销、文档撰写以及分发和运营方面的工作。
一项主要任务是测试。之后,我需要将所有内容打包,以便在线商店可以向用户分发可安装的插件包。
也是在这里,我发现了一些奇怪的现象。点击 WordPress 仪表盘时,系统会无响应大约 15 到 20 秒。但这种情况只在我离开开发环境的 WordPress 仪表盘几个小时后才会出现。
早晨第一次访问时,仪表盘会卡住大约 15 秒。但在那之后,它表现正常。只有当我长时间离开去做其他事情,比如写文章,回来后再访问时,它才会再次卡住。
我甚至不确定这是不是我代码中的错误。这可能是系统的问题,或是构建过程的问题,甚至是 WordPress 本身的问题,或者只是我的错觉。
尝试诊断问题(第一部分)
– 我尝试向 Codex 描述这个问题,但由于我也不确定这是否真的是一个问题,因此没有给出最好的指导。Codex 并没有提供任何有用的线索。
– 因此,我让 Codex 构建了一个诊断平台,用来测量 WordPress 启动时的每一种行为。我让它捕捉每一个钩子、每一次调用、每一个时间延迟,并记录在诊断控制台中。
不幸的是,诊断遥测中并没有记录下任何特别值得注意的信息。更糟糕的是,我每天只有一次机会来捕捉任何异常,因为问题最可靠的显现是在一天开始时我首次尝试使用测试站点。
一无所获。
哦,对了,这确实是个错误
– 经过几天的努力,我认为这并不是真正的错误。这只是我的开发环境中的一些小问题。于是,我转而录制每个插件的教学视频。
关注我的 AI 编程故事的读者可能还记得,我使用 Codex 创建的第一个产品是一个站点分析工具。它可以捕获发生在您网站上的事件(例如失败的登录尝试、AI 机器人访问、搜索引擎爬虫等),并提供原始数据和清晰的分析。
在开发环境中演示这个工具并不有趣,因为数据必然只是测试数据。所以我决定将这个工具部署到我的主用户界面服务器上,该服务器用于支持和销售这些产品。这个服务器流量较大,非常适合用作访客分析工具的测试案例。
我还需要将主要的安全产品部署到该服务器上,因为访客工具是其附加组件。于是我安装了最新版本。这是一个错误的决定吗?还是正确的决定?结果是负面的。
这是一个错误的决定,因为它使得我的网站无法正常使用。点击任何内容都需要等待一分钟以上才能有反应。不仅仅是管理后台,前端用户访问网站时也遇到了同样的问题。
这是一个正确的决定,因为立即显而易见的是,我有一个错误。这不仅仅是在测试站点过夜后出现的小问题。在活跃的站点上,它使整个网站完全无法使用。
但是结果是负面的,因为这也清楚地表明,我不能将 AI 创建的更新发布给我的用户。冻结自己的网站是一回事,冻结互联网上的其他 20,000 个网站则是另一回事,那将会非常糟糕。
2025年最佳免费人工智能课程和证书——我已经尝试过很多
网站速度非常慢,我无法通过插件仪表板禁用它。我不得不使用托管提供商的文件管理器登录并从WordPress外部删除该插件。
这样做立即恢复了网站的正常运行,这清楚地表明问题是出在我的更新的安全插件上。
诊断问题(第二部分)
我将这一观察反馈给了Codex。自从我在ChatGPT Plus计划下开始使用Codex进行大型编码冲刺,随后转到Pro计划,Codex在调试方面表现出乎意料地熟练。
但这次不行。正如我在“与Codex配对编程60小时后学到的10个ChatGPT Codex秘密”中所讨论的,我得出结论,Codex在处理大型任务时表现不佳。
你有没有遇到过这种情况:你去一家通常非常可靠的快餐店点餐,但这次你点了大量食物?这家快餐店在单个订单上看似运营稳健,但在处理大订单时几乎总是会出错,特别是如果有特殊要求的话。
同样:
你的同事已经厌倦了你的AI作品
Codex也无法很好地处理大订单。它们通常会以无用的一团糟的形式返回。过去,当我分步骤处理大型项目时取得了巨大成功,但这回对这个问题不起作用。
这是一个系统问题。自Codex开始处理我的代码以来,整个代码库的某些方面导致了冻结。我不能指向一个小区域让Codex工作,然后等待它给出答案。它需要查看全部内容。
我试图告诉它问题是在它开始处理我的代码后出现的,但它不记得那是什么时候。Codex只知道当前会话以及有意在会话间传递给它的信息。但它没有真正的记忆,所以没有多少框架可以查看可能破坏的地方。
我给了它大约20个不同的提示。每次,它都会离开去思考。这开始让我感觉像是在买车时销售员必须回去“与经理讨论”每个步骤。Codex需要离开去思考5到10分钟,然后回来提供一个通常无用或不可行的“修复方案”。
我也非常沮丧。我知道我可以自己回到代码中尝试诊断问题。我掌握了一项技能,即吸收他人的代码并理解它,所以我有能力做到这一点。但我也知道这样做意味着我将踏上一段可能会持续数周的令人沮丧的工作之旅,这实际上会消除我通过与AI配对编程所获得的所有生产力提升。
一定有更好的办法。
ChatGPT深度研究登场
如果Codex在处理大局工作时表现糟糕,ChatGPT的深度研究则专长于此。我决定把问题交给深度研究。
深度研究可以访问包含我的项目的GitHub仓库,因此检查代码的物流问题不成问题。我解释了问题并让它放手去做。
大约半小时后,它回来了。它将所有责任归咎于我最初的代码。它列出了我最初代码中可能存在轻微减速的地方,这里一毫秒,那里一毫秒。
但我的代码是可行的。多年来,我一直交付深度研究抱怨的代码,这些代码正在超过20,000个站点上运行。如果这段代码造成了重大减速,我早就听说了。
但与只能处理GitHub仓库或VS Code工作区中代码的Codex不同,深度研究可以接受任何文件,包括zip文件。
于是,我给了它3.2版本的安全软件的分发zip包。我已经发布了3.2版本四个月,它安装在20,000多名用户中45.6%的站点上。我们知道这个版本没有问题。现在,Codex和我正在开发即将发布的4.0版本,而正是4.0版本出现了冻结问题。
我明确告知深度研究,3.2版本运行良好,并要求它只查看4.0版本中自3.2版本发布以来新增的部分。这大大缩小了其分析范围。
猜猜看?它找出了问题所在。它发现了一些关注点。最大的问题是,我的主插件每次用户访问网站时都会检查robots.txt文件的状态。
这只需要检查一次,以确定某些功能是否可以加载。但它一直在运行。在一个活跃的网站(而非我的开发机)上,这些检查会占用PHP解析器直到完成,实际上杀死了服务器。
深入研究确定了问题所在。生活在未来很酷。
事情从“我的项目一团糟”变成了“我生活在未来”。我将深入研究的结果向Codex做了说明。
由于是对情况的简要解释,Codex很快锁定了问题。它的首个解决方案可行,但仍存在一些问题。我们反复讨论,最终我给出了明确的指示。
此外:
2025年最佳编程AI(以及哪些不要用)
我让Codex检查文件状态一次并记住该状态。然后,我要求它提供一个按钮,用户可以点击该按钮请求重新检查状态,如果服务器配置发生了变化。
这样,程序在启动时运行一次,如果网站所有者请求重新检查,则再运行一次,而不是每次网页访问都运行并冻结服务器。
Codex给我构建了一个有希望的版本。我将其上传到活动服务器以测试性能。目前,它已经稳定运行了大约三天,服务器运行良好。
问题解决了。
我真的感觉像是请来了不同的团队成员来审视我的代码。Codex是我的雇佣程序员。深入研究是被请来诊断问题的专家。然后,Codex作为我的职员程序员,去实施修复方案。
AI并不能解决一切
尽管这次体验和合作非常神奇,但需要注意的是,AI并不能解决所有问题。首先,AI未能发现这个问题。我是通过自己的人工测试才发现这个bug可能会导致整个用户群体瘫痪。
其次,虽然初始代码编写得非常快,但诊断这个问题花了好几天时间。这需要我大量的创造性解决问题的能力。Codex没有建议我调用深入研究,而深入研究也没有建议对比旧代码和新代码。这些都是人类的贡献。
此外:
最近增长最快的AI聊天机器人?不是ChatGPT或Gemini
第三,虽然我有一些不错的AI概述,但软件产品化仍然需要时间。我在制作教程,还需要搭建产品页面,尚未掌握最终的分发软件。所有这些都是我的工作,需要相应的时间来完成。
一个月内,我将有四款新产品上市。在AI之前,这可能需要数年时间。然而,AI在四天内完成了所有编码只是拼图的一部分。对于每一天的AI编码,大约有一周的时间用于测试和产品管理。接下来是营销,这又是一个完全不同的努力。
不过,我们正在接近目标。我希望这些产品能在接下来的一周左右时间内推出。
那么你呢?你有没有遇到过在一切看似正常后才暴露出来的bug?你认为像一个用于诊断、另一个用于修复的AI工具组合能否成为标准工作流程?请在评论区告诉我们。
特辑
如何免费升级你的“不兼容”Windows 10电脑到Windows 11
我测试了苹果和谷歌的两款最佳智能手表——谁胜出?
这些具有200英寸屏幕的XR眼镜有效地替代了我的三屏设置
我测试了iPhone 17 Pro Max,这里有一个重要的年度升级理由
如何免费升级你的“不兼容”Windows 10电脑到Windows 11
我测试了苹果和谷歌的两款最佳智能手表——谁胜出?
这些具有200英寸屏幕的XR眼镜有效地替代了我的三屏设置
我测试了iPhone 17 Pro Max,这里有一个重要的年度升级理由
(以上内容均由Ai生成)