超越聊天机器人,以及 AI 开发人员的其他 5 个经验教训
快速阅读: 据《新堆栈》称,Fractional AI分享了六大开发经验,涵盖利用AI进行原型设计、工程化问题、创建评估机制、处理AI奇怪行为、超越聊天机器人思维及应对幻觉现象,助力开发者更好地构建AI代理。
超越聊天机器人:给AI开发者的六大经验
Fractional AI分享了如何管理和应对幻觉现象的方法,以及其他关键经验教训,供使用AI自动化工作流的开发者参考。
**2025年4月16日中午12点**,由Loraine Lawson撰写
图片来自Yannis Papanastasopoulos,来源Unsplash。
《The New Stack》此前分享了一个案例研究,关于Fractional AI构建AI代理、AI助手的工作,用于开源数据集成引擎Airbyte的API连接器自动化创建。今天,我们分享Fractional AI在构建AI代理过程中学到的六个开发经验。
—
### **1. 借助AI进行原型设计**
AI在快速原型设计等任务中特别有用,其中快速迭代非常有价值。Fractional AI的首席执行官Chris Taylor告诉《The New Stack》,他建议开发人员通过摆弄AI模型来探索它们仅凭试验所能实现的功能。
**案例背景**
Airbyte拥有一支能够构建复杂事物的优秀开发团队,虽然该组织内部并没有太多AI经验。在黑客周期间,开发团队尝试了AI,包括进行一些粗略测试,以确定如果将API文档投入ChatGPT以创建连接器会发生什么。
**结果**
“他们得到的输出看起来令人鼓舞,但不完整,”Fractional AI的首席技术官Eddie Siegel告诉《The New Stack》。“它编造了一些东西,出现了幻觉。”
但它也创造了一些看起来几乎像连接器的东西。开发人员只是不确定接下来该怎么做。
—
### **2. 工程化问题,而不仅仅是AI**
在构建AI代理时,应将AI视为增强和优化工作流的工具,而不是最终目标或解决方案本身。
**实践策略**
“我们的方法涉及大量的‘幕后’技术细节,但从外观上看,它就像任何其他工程问题一样,”Siegel说。“你将这个大任务分解成许多更小、更可控的部分。”
任务不是构建连接器;那是目标。相反,应该工程化问题,找出实现目标所需的所有步骤或任务,Siegel建议。
“将问题细分为更小、更可控的部分是一项关键技术,”他说。“还要抵制制作那些实际上不在完整生产系统关键路径上的演示的冲动。重要的是尽早构建[概念验证]和演示,但要以这种方式进行,即它是更大过程的第一步。”
他建议先创建演示,然后丢弃并构建真正的解决方案。
**深度解析**
有时,在使用AI时,开发人员可能需要切换AI模型或调整提示工程,以找到能产生所需结果的最佳组合。
“有些事情是确定性编程技术,”Siegel说。“并不是所有的事情都只是提示AI。这是一个庞大而复杂的工程系统。有很多代码。它所做的不仅仅是调用AI。因此,结果是一个相当复杂的流程,正在完成这项整体任务。”
最终构建的连接器是“用我们的代码确定性地拼接在一起的”,他说。
“它使用了从AI获得的大量子问题的答案,然后我们的代码编写连接器。它不是要求AI从头开始起草连接器。所以它相当复杂。”
这就是AI代理在幕后真正的样子——从用户的角度来看,AI似乎在做决策,确实如此。但这还不是全部。
“它的幕后并不是完全不受约束的,只是简单地要求一个大型语言模型做任何它想做的事情,”Siegel说。“它是一个更复杂的系统,你在某些事情周围添加护栏以获得更高的可预测性和更好的结果,并且将其分解为更小的部分,以便你可以获得想要的行为。”
—
### **3. 创建评估(Evals)**
评估(Evals)是用于确定AI代理表现如何的自动化测试。Siegel承认,对于Airbyte项目来说,评估非常具有挑战性。想法是从已经与Airbyte有连接器的API中选择一个,然后让AI助手依据文档构建相同的连接器,并比较两者。
“这是一个很好的基准,可以用来测试你的系统并告诉你做得如何,”Siegel说。“在实践中,这有很多复杂细节。”
计划是构建一堆连接器,以便他们能够在不同维度上建立衡量最终产品的基准。例如,对于身份验证,Fractional AI可以告诉他们大约70%的时间是正确的,这让工程师能够深入分析为什么系统在其他30%的时间失败,Siegel解释道。他补充说,这一数字随着时间的推移经过了漫长的迭代开发周期才逐渐提高。
“评估在这些AI项目中至关重要,”Siegel说。“弄清楚如何衡量自己是非常具有挑战性的。软件工程师习惯于在确定性代码中编写测试。这些评估是AI世界的测试,但它们更加复杂和微妙。”
即使有了评估,AI仍然比普通软件更具挑战性。这是因为,在某个时刻,AI在准确性方面开始超过人类。
“评估在这些AI项目中至关重要,”Siegel说。“弄清楚如何衡量自己是非常具有挑战性的。软件工程师习惯于在确定性代码中编写测试。这些评估是AI世界的测试,但它们更加复杂和微妙。”
“现在这个系统比人类更准确,而人类正在评判它,”Taylor说。“这从测量的角度引入了很多挑战。”
—
### **4. 预料到奇怪的行为**
每个人都知道幻觉问题。但开发者可能没有意识到的是,有时AI的行为会很奇怪。
“在这些项目中,我们尝试做的一件事就是预算未知的未知因素,”Taylor说。“我们会开发这些项目,然后你会遇到一些无法预料的奇怪行为。然后你必须想办法解决这个问题,如何限制AI,使其不再表现出这种奇怪的行为?”
**案例展示**
有时问题是直接与AI有关的。例如,Taylor分享了一个需要对话记录的项目。当给定白噪声或咳嗽声时,AI有时会在白噪声或咳嗽发生的地方将训练数据中的内容写入记录中。
“你会得到一些奇怪的内容,比如‘点赞订阅’,因为它在YouTube视频中表现很好,”Taylor说。“然后你必须想办法确保记录实际反映对话内容,并解决这些随机插入的异常内容,这些是由AI从训练数据中插入的。”
在Airbyte项目中,Siegel说,Fractional团队遇到的意外情况与AI关系不大,而是与网页抓取API文档有关。
“最让我们意外的是网页抓取部分竟然如此困难,”他说。
另一个意想不到的问题:并不是所有API文档都能放入AI的上下文窗口中,在这种情况下,团队会对文档进行检索增强生成(RAG)处理,使其更适合AI处理。
“在这些项目中,我们尝试做的一件事就是为未知的未知数预留预算,”Taylor说。“我们在开发这些项目时,经常会遇到一些无法预料的奇怪行为。接下来你需要想办法解决这个问题,如何才能约束AI,避免它出现这种奇怪的行为?”
有时问题直接与AI有关。例如,Taylor分享了一个需要对话记录的项目。当给定白噪声或咳嗽时,AI有时会将其训练数据中的内容写入发生白噪声或咳嗽的记录中。
“你可能会得到一些奇怪的内容,比如‘点赞并订阅’,因为这在YouTube视频中效果很好,”Taylor说。“接下来你需要想办法确保记录真实反映对话内容,并解决AI从训练数据中插入的这些随机、奇怪的内容。”
在Airbyte项目中,Siegel表示,Fractional团队遇到的意外情况与AI本身关系不大,而更多与网络爬取API文档有关。
“最让我们意外的是网络爬取部分竟然如此困难,”他说。
另一个意想不到的问题:并不是所有API文档都能放入AI的上下文窗口,遇到这种情况,团队会对文档进行检索增强生成(RAG)处理,使其更适合AI处理。
—
### **5. 超越聊天机器人**
有时,简单的用户界面就是一个聊天机器人。但对于用户来说,这常常会带来与提供适当提示相关的挑战。例如,Airbyte项目不仅仅需要一个精心编写的提示。
“在AI世界中,人们有一种强烈的诱惑力,或者一种强烈的联想,即AI和聊天机器人之间存在联系,”Siegel说。“当你寻找应用AI的地方时,很自然地会想到在上面放一个聊天机器人。但实际上,我们看到的结果参差不齐。”
有时它奏效,但有时却失败了,他补充说。
“许多这类‘与我的文档聊天’之类的杂项用例或在旧UI上放置聊天机器人的做法对用户来说令人沮丧,”Siegel说。
他建议:“思考用户体验,‘这个用户正在执行的工作流程是否自然是一个对话体验?’这是一个我们在此发现的强大新工程方法,但工程优先原则和用户体验优先原则依然适用。”
Taylor呼应了西格尔的观点:“作为用户,与聊天机器人互动并不容易,因为你需要知道如何正确提示它,它能做什么。学习曲线很陡峭,所以普及起来可能也不容易。”
相反,西格尔建议考虑最终用户的自然工作流程,并专注于创建一个深思熟虑的用户体验和界面。
—
### **6. 像老板一样处理幻觉**
AI确实会出现幻觉。任何与之接触的人都会发现这种情况。因此,Siegel建议开发者意识到它可能会产生错误或无意义的信息的可能性——即使是在代码中。
“当它们承担大型、复杂的开放性任务且缺乏足够信息来回应时,更容易产生幻觉,”他说。
为了对抗这种倾向,Siegel表示,通过要求非常具体的答案或将AI的选择限制在一定范围内,可以帮助减少幻觉。
“幻觉不仅仅是毫无根据地胡编乱造,”他说。“它是试图完成你要求它做的事情,但由于缺乏适当的手段而胡编乱造。”
开发者可以通过工程设计来降低幻觉的发生率。但他补充说,关键在于实践中找到幻觉并探索其产生的原因。Fractional AI甚至撰写了一份关于构建可靠AI代理的白皮书。
“以这种方式构建你的评估,以便能够检测到它是否发生,”他说。
Siegel和Taylor建议结合提示工程、确定性检查和二次验证系统来减轻幻觉。他们还建议进行大量测试。例如,你可以让第二个AI系统检查你的主要系统结果,看看是否存在幻觉,Siegel说。
护栏也很重要,他建议。实施护栏和保障措施,以确保负责任的AI开发,并解决关于幻觉和不可预测行为的担忧。
—
**热门故事**
YOUTUBE.COM/THENEWSTACK
技术发展迅速,不要错过任何一集。订阅我们的YouTube频道,观看所有播客、采访、演示等。
订阅
组
创建于草图。
洛兰·劳森是一位资深的技术记者,她从事数据集成到安全等技术问题的报道已有25年。加入The New Stack之前,她曾担任银行技术网站Bank Automation News的编辑。她…
了解更多关于洛兰·劳森的信息
分享这个故事
热门故事
分享这个故事
(以上内容均由Ai生成)