介绍 AiKA:Backstage Portal AI 知识助手
快速阅读: 据《新堆栈》最新报道,Spotify在2025年欧洲KubeCon大会上介绍了AiKA,一款基于RAG的AI聊天机器人,旨在提升开发者效率。AiKA已在Spotify内部广泛应用,并开始向外部Backstage门户云客户推出测试版。通过知识整合与定制化,AiKA显著提升了信息检索的准确性和工作效率。
2025年欧洲KubeCon云原生大会
介绍AiKA:Backstage门户人工智能知识助手
Spotify是一家极端重视内部用户体验的组织。这家音频流媒体公司大力投资于自己的内部开发者体验,在向新客户甚至开源贡献者推出产品之前,先在公司内部推出工具,如Backstage。
现在Spotify正在将其理念应用于支持知识整合的人工智能,并广泛分享构建这些系统的挑战。
Spotify平台开发者体验(PDX)团队的平台工程师马吉德·萨利曼和乔弗雷·马特桑兹在2025年欧洲KubeCon+云原生大会上向公众介绍了AiKA——人工智能知识助手。
作为一个基于检索增强生成(RAG)的AI聊天机器人,AiKA通过训练组织上下文和数据生态系统来支持对话式搜索,引用原始材料。因为人工智能不应该进一步打断工作流程,AiKA在集成开发环境、Slack、跨组织文档和其他开发者必需品中运行。
据公司称,超过一千名Spotify员工,无论技术岗位还是非技术岗位,都在使用AiKA。在80%的Spotify开发者中,AiKA已成为首选的人工智能工具。
本周,Spotify开始向选定的Backstage门户云客户和设计合作伙伴推出AiKA的测试版本。预计将在今年晚些时候向更广泛的客户群发布。
衡量开发人员生产力的障碍
“我们专注于构建工具和系统,以帮助提高Spotify工程师的生产力,”萨利曼在开场时说道。
两位演讲者在过去八年里一直在Spotify的内部开发者平台上工作——早在Backstage内部开发者门户被构想出来之前。
“作为平台部门,我们不仅关注生产力的测量,还关心是什么阻碍了生产力,”马特桑兹说。
“这就是为什么我们在2020年开始了一个季度工程满意度调查,以获取有关Spotify所有开发者生产力提升因素和阻碍因素的数据和趋势,”他说。“从一开始,对于每个人来说,我们看到寻找信息或缺少文档的问题一直位居前三大开发人员生产力阻碍因素。”
这不是这家公司的孤立投诉。在科技行业平均而言,
开发人员每周因低效损失一天时间,
其中包括每天超过30分钟用于寻找东西。大多数公司都受到知识碎片化的困扰。
在Spotify,信息分散在:
超过一万个站点。
超过两万两千个存储库。
Slack是公司的主要沟通渠道,有150多个频道。
其他信息来源,包括人力资源数据、评论请求、架构决策记录、规划工具、代码示例、仪表板以及当然不同质量的文档。
Spotify的Squad文化以其自我组织和开发者自主性而闻名。早期,这导致八个不同的团队各自构建解决方案。那时这样做可能没问题,但现在这家流媒体公司已经扩展到600个Squad。
“我们有重复的努力,”萨利曼说。“最佳实践较少。基础设施和知识没有在解决方案之间共享。”
当大型语言模型(LLMs)三年前随着GPT 3.5登上头条时,虽然他们喜欢这种新的交流方式,但他表示,它们有非常有限的上下文窗口,难以从头开始训练或微调——更不用提频繁出现的幻觉问题。
检索增强生成(RAG)作为一种模式应运而生,以解决这些限制。
“RAG是一种允许你针对自己的私有数据进行问答的技术,”萨利曼描述道。
他解释说,首先需要对有意义的文档进行训练。这些文档被分割成有意义的部分,然后使用嵌入模型将每个部分转换为表示其语义意义的向量。这些向量随后存储在一个向量数据库中。当用户提问时,该问题查询也会使用相同的嵌入模型进行转换。
此RAG过程减少了数据冗余和重复问题。
“这种方法也更具成本效益,因为你只处理了一部分信息,而不是整个知识库,”萨利曼说,这反过来减少了碳足迹。“它还通过将响应与实际文档联系起来解决了某些幻觉问题。”
此外,由于基于RAG的响应可以引用答案的来源,这进一步减少了幻觉问题。
RAG基础知识搜索
在2023年的Spotify黑客周上,几个团队旨在构建人工智能聊天机器人以支持内部支持。最终,AiKA——人工智能知识助手——成为这些努力的结晶,并在当年12月部署到生产环境中。
首先,萨利曼说,这个共享知识平台加上AiKA聊天机器人建立在一些核心原则之上:
– 信任和透明度:验证文档的来源。
– 积极的知识反馈循环:持续反馈给文档所有者。
– 灵活性:在Backstage内具有不同界面的可定制体验。
– 满足用户需求:与包括Slack和Backstage在内的不同界面集成。
– 灵活性:在Backstage内具有不同界面的可定制体验。
“我们认为这里有一个强大的协同效应,更好的文档能带来更好的回答,更好的回答激励团队更新和维护更好的文档,”萨利曼说。“这形成了一个良性循环,我们希望解决和支持多种体验,并适应各种模块需求。”
因此,AiKA人工智能知识助手得以构建。集成到Spotify自己的Backstage开发者门户版本中,AiKA可以从关键知识源检索信息,包括Slack支持频道和组织数据。
“然后我们可以融合所有这些上下文来生成有用的答案,”马特桑兹说。
不仅仅是为了开发者构建,AiKA RAG还训练了Spotify的所有关键内部文档,包括一个Slackbot,允许个性化搜索私人对话。它附带了一个API和Python库以便于构建自定义功能。
由于AiKA是在内部知识上进行训练的,它理解了一些流行的LLMs可能会忽略的细微差别。例如,Spotify中的MMA代表“管理监控和警报”,而不是“综合武术”的流行缩写——AiKA知道区别并可以利用这一知识教导新同事这种术语。
在600个团队中,新人可以通过与AiKA的对话快速发现谁拥有什么。
AiKA仍然在主流第三方LLMs上进行训练。这意味着如果开发者想要询问例如更通用的Python问题,行业标准加上任何Spotify特定的补充都会在答案中考虑。
这对来说,最强大的功能是AiKA的信心评分模型,根据问题、检索到的文档和答案本身,输出一个从0到1的信心分数,表明答案对用户有多大的帮助。
“我们有一个评估框架,这样我们可以评估事情的原因,比如检索准确性以及答案质量,”萨利曼说。“这有助于我们更安全地前进并自信地做出改变,所有这些都反馈到我们的可观测性系统中,”基于OpenTelemetry。
现在,25%的Spotify员工和86%的Spotify开发者每周使用AiKA——每日用户超过1,000人。PDX团队还定期收到公司各部门关于如何使他们的文档在AiKA中可用的请求。作为一家内部开源公司,AiKA通过鼓励Spotify用户不仅使用,还要发现和修复文档中的空白,从而形成积极的反馈回路。
如何为您的组织定制AiKA Backstage
一旦AiKA在Spotify内部得到验证,就到了将其提供给公司外部的时候了。上周,AiKA开始向Spotify Backstage客户和设计合作伙伴推出,以适应他们的组织需求。
在Spotify,平台和开发者体验团队并没有简单地将公司的所有文档放入AiKA中——他们也不建议新的AiKA采用者这样做。从小处着手,逐步构建,首先关注最高质量的文档和主要渠道。
当然,正如他们所发现的那样,很快用户就会想要添加自己的内容,这是一个内部开发平台成功的良好信号。考虑到这一点,PDX团队在AiKA中构建了一个摄入管道,允许团队维护自己的数据源。
不过要小心,萨利曼警告说,这种自主性增加了来自其他领域(如后端、Web和安全)的语义相似但不相关答案的可能性——领域越多,稀释程度越大。在AiKA中,您可以使用排名系统来赋予或降低文档的重要性。
“虽然重写有助于理清一些混乱,但消除背景噪音更有帮助,”萨利曼说。在他的团队在同一嵌入空间内启用用户高亮显示“某个特定区域或一组与某些学科相关的主题”时,他们发现用户在提问时常有特定的上下文。
他举例说,后端工程师询问部署时不太可能对iOS部署感兴趣,因此自动过滤掉噪声。
“在同一向量空间中拥有所有这些知识对于发现非常有用,”他继续说道,“但能够缩小范围并过滤掉噪声开启了新的可能性。”
考虑到这一点,AiKA用户可以打开知识过滤器来设置定制的AI助手。
“有了过滤可用知识的能力,”马特桑兹说,“我们能够从通用助手扩展到创建一个能够创造专注体验的平台。”
守门员:一个用于支持的Slackbot
接下来,Spotify团队希望扩展AiKA应用程序,以包含支持工作的自动化,这促成了AiKA守门员机器人(Goalie Bot)的创建,这是一个完全可定制的Slack机器人。守门员机器人监控负责处理从常规问题到长时间故障排除、调试会话等各类任务的Slack支持频道。
“我们看到了让AI处理这些枯燥工作,而让人类守门员处理这些更有趣的故障排查会话的机会,”马特桑兹说。“当机器人看到一个问题时,首先要决定它是否能够在当前情况下回答这个问题。”
这个Slack机器人与主AiKA助手遵循相同的置信度评分,以决定它是否能够回答问题,并且如果更有能力的话,代表用户执行操作。
“如果答案的置信度较低,它就停止操作,不做任何事情。如果置信度中等,它将提出生成的答案供人类守门员决定如何继续;”他说,“最后,如果置信度高,它将自动发布一个答案引用,引用所有提到的来源,并为每个人节省时间。”
由于每个团队在Slack中的交互方式特别不同,技术深度和文档质量也各不相同,因此该功能被设计为高度可定制的功能。通过声明式的YAML方法进行Slack频道配置,每个团队都负责自己的系统。他们负责默认的知识库、文档、哪些Slack频道,甚至自定义数据源。
重要的是,每个团队自行设定置信度标准。
在Spotify,非技术团队也在配置自己的守门员Slack机器人。
“我们的配置方法无需编写任何代码,这意味着非技术团队能够采用这个机器人并从中受益,”马特桑兹说。
在Spotify的整体平均情况下,这导致了30%更多的问题得到解答,他指出,这相当于数千小时。
守门员目前仅对Spotify员工可用,但可能会在未来的产品更新中考虑。
基于RAG的经验教训(艰难的方式)
但这并不是自动的。前期需要深入思考。
“我们认为检索是最重要的一部分,”萨利曼说。“如果没有找到正确的文档和信息,你就无法提供准确的答案。”
他建议首先广泛搜索数据,然后注重质量而非数量。即使PDX团队将上下文中的文档数量增加了一倍,他们也没有看到改进的结果,因为检索的相关性呈对数下降。
“你可能会在提供的前五份文档中看到很多改进,但在那之后回报迅速递减,”他警告说,“因为你常常只是在不必要的填充上下文窗口,而且每个数据源都需要特殊考虑。”
这包括信息的呈现方式。例如,如果数据是以图形结构形式存在,他说,“它需要以一种有用的方式展平并嵌入,以便用于问答。”
即使是单一的Slack对话也可以以多种方式进行嵌入。
“你需要尝试预见用户可能向数据提出的问题类型,”萨利曼说。“也许最具挑战性的难题之一是判断某些东西是幻觉还是坏数据。当你有一个错误的答案时,是因为大型语言模型编造的,还是因为它正确地使用了过时的信息?”
这就是为什么AiKA和守门员机器人注重引用,既用于信息验证,也用于通知文档所有者如果内容过时的话。
接下来,内部以及对于Backstage门户云客户,马特桑兹和萨利曼的团队正在努力构建跨多个知识源的语义搜索,超越预先定义的数据源。
此外,“我们在增强推理方面也在努力,”萨利曼说。“这样用户就不必知道要查询哪些数据源,系统可以根据用户的查询和所处的上下文自动推断出相关的数据源。”
不出所料,他们正在探索代理型人工智能的能力,以处理需要来自不同来源的信息的多部分问题,包括实时信息的测试。
目前,重点是将AiKA推广给公司合作最紧密、反馈循环最及时的Spotify门户云客户。
由于AiKA在日语中翻译为“爱之歌”(AI=爱!)而在芬兰语中翻译为“时间”,我们只能希望AiKA能转化为更好的即时沟通和协作,不仅限于开发团队之间,还涉及更广泛的范围。
热门故事
YOUTUBE.COM/THENEWSTACK
科技发展迅速,不要错过任何一集。订阅我们的YouTube频道,观看所有我们的播客、采访、演示等内容。
订阅组
创建
珍妮弗·里金斯是一位讲述科技文化故事的记者、作家、活动和播客主持人,帮助分享文化和技术碰撞的故事,并解释我们正在构建的技术的影响。她已经……
了解更多关于珍妮弗·里金斯的内容
分享这个故事
热门故事
分享这个故事
(以上内容均由Ai生成)