您的 AI 应用程序是惹恼用户还是脱离脚本?Raindrop 推出 AI 原生可观测平台来监控性能
快速阅读: 据《VentureBeat 公司》称,Raindrop(前身为Dawn AI)是一个专注于生成式人工智能可观测性的平台,帮助企业实时检测和解决问题。通过机器学习和多种信号反馈,Raindrop能有效识别AI应用中的错误并提供上下文支持,解决了传统工具在AI领域的局限性。
订阅我们的每日和每周通讯,获取行业领先的人工智能报道的最新动态和独家内容。了解更多
随着企业越来越多地寻求构建和部署生成式人工智能驱动的应用程序和服务(用于内部或外部用途,即员工或客户),他们面临的最棘手的问题之一就是准确了解这些人工智能工具在实际应用中的表现如何。事实上,咨询公司麦肯锡近期的一项调查显示,只有27%的830名受访者表示,他们的企业在将生成式人工智能系统输出提供给用户之前对其进行了全面审查。除非用户实际提交投诉报告,否则公司如何知道其人工智能产品是否按预期和计划运行?
**Raindrop**,前身为Dawn AI,是一家初创公司,直接面对这一挑战,将其定位为首个专为生产环境中的人工智能设计的可观测性平台,实时捕捉错误并为企业解释问题出在哪里以及原因何在。目标是帮助解决生成式人工智能所谓的“黑箱问题”。
“人工智能产品经常悄然无声地出现问题——既有搞笑的也有令人恐惧的方式,”联合创始人本·海拉克最近在X上写道,“传统软件会抛出异常。但人工智能产品却悄然无声地出现问题。”
Raindrop致力于打造任何开创性的工具,类似于传统软件可观测性公司Sentry所提供的工具。然而,传统的异常跟踪工具无法捕捉大型语言模型或人工智能伴侣的细微行为偏差,而Raindrop试图填补这一空白。
“在传统软件中,你有像Sentry和Datadog这样的工具来告诉你生产环境中出了什么问题,”他在上周的一次视频采访中告诉VentureBeat,“但在人工智能领域,没有这样的工具。”
直到现在——当然。
**Raindrop的工作原理**
Raindrop提供了一套工具,允许大企业和小团队实时检测、分析和响应人工智能问题。该平台位于用户交互和模型输出的交汇处,分析数亿次日常事件的模式,同时启用SOC-2加密,保护用户和提供人工智能解决方案的公司数据和隐私。
“Raindrop位于用户所在的位置,”海拉克解释说,“我们分析他们的消息,加上诸如点赞/点踩、构建错误或是否部署输出等信号,以推断出实际出了什么问题。”
Raindrop使用机器学习管道,结合LLM驱动的摘要与针对规模优化的小型定制分类器。Raindrop仪表板的宣传截图。图片来源:Raindrop.ai
“我们的机器学习管道是我见过的最复杂的管道之一,”海拉克说,“我们使用大型LLM进行早期处理,然后训练小型高效模型,每天在数亿个事件上运行。”
客户可以追踪用户挫败感、任务失败、拒绝和记忆丧失等指标。Raindrop使用点踩、用户修正或后续行为(如失败部署)等反馈信号来识别问题。
Raindrop联合创始人兼首席执行官祖宾·辛格·科提查在同一采访中告诉VentureBeat,虽然许多企业依赖评估、基准测试和单元测试来检查其人工智能解决方案的可靠性,但在生产阶段几乎没有专门设计用于检查人工智能输出的内容。
对于高度监管行业的企业或那些寻求更高隐私和控制水平的企业来说,Raindrop推出了Notify,这是平台的一个完全本地化的、以隐私为中心的版本,旨在满足严格数据处理要求的企业。与传统的LLM日志记录工具不同,Notify在客户端通过SDK和服务器端通过语义工具进行脱敏。它不存储持久数据,并且所有处理均在客户基础设施内完成。
Raindrop Notify在工作场所工具(如Slack和Teams)中直接提供每日使用总结和高信号问题的突出显示——无需云日志记录或复杂的DevOps设置。
**先进的错误识别和精确度**
识别错误,尤其是人工智能模型中的错误,远非易事。
“这个领域的难点在于每个AI应用程序都不同,”海拉克说,“一个客户可能开发了一个电子表格工具,另一个则开发了一个外星同伴。‘损坏’的样子在它们之间差异巨大。”
这种变异性正是Raindrop的系统能够适应每个产品的独特之处。
“Raindrop学习每个产品的数据模式,”海拉克解释说,“它从常见的AI问题的高层次本体开始——比如懒惰、记忆丧失或用户挫败感——然后根据每个应用程序进行调整。”
无论是忘记变量的编码助手,突然称自己为美国人的AI外星同伴,甚至是随机提起南非“白人种族灭绝”指控的聊天机器人,Raindrop的目标是以提供可操作的上下文方式揭示这些问题。
通知被设计得轻量且及时。当检测到异常情况时,团队会收到Slack或Microsoft Teams警报,附带重现问题的方法建议。随着时间推移,这使人工智能开发者能够修复错误、优化提示,甚至识别应用程序响应用户的方式中的系统性缺陷。
“我们每天分类数百万条消息,以发现上传失败或用户投诉等问题,”海拉克说,“一切都在于发现足够显著且具体的模式,足以触发通知。”
**从Sidekick到Raindrop**
这家公司的起源故事根植于实践经验。海拉克曾是苹果visionOS的人机界面设计师和SpaceX的航空电子软件工程师,他在2020年早期接触GPT-3时开始探索人工智能。
“当我第一次使用GPT-3——只是简单的文本补全——它让我大开眼界,”他回忆道,“我立刻想到,‘这将改变人们与技术互动的方式。’”
在联合创始人科提查和阿莱克斯·加乌巴的共同创立下,海拉克最初开发了Sidekick,这是一个拥有数百付费用户的VS Code扩展。但在构建Sidekick的过程中,揭示了一个更深层次的问题:使用现有的工具几乎不可能调试生产环境中的AI产品。
“我们一开始是构建AI产品,而不是基础设施,”海拉克解释说,“但很快我们就意识到,要发展任何重要的东西,我们需要工具来理解AI行为——而这些工具并不存在。”
最初的困扰迅速成为核心重点。团队转向开发工具,以便在现实环境中理解AI产品的行为。在这个过程中,他们发现他们并不孤单。许多AI原生公司缺乏对用户实际体验及其失败原因的可见性。由此,Raindrop诞生了。
Raindrop的定价设计旨在适配各类规模的团队。每月65美元的入门计划可供选择,采用按使用量计费。专业层级,包括自定义主题跟踪、语义搜索和本地功能,起价为每月350美元,并需要直接参与。
虽然可观测性工具并不新鲜,但大多数现有选项是在生成式人工智能兴起前构建的。Raindrop通过从一开始就专注于人工智能脱颖而出。
“Raindrop是人工智能原生的,”海拉克说,“大多数可观测性工具是为传统软件设计的。它们并未设计来处理大型语言模型在实际应用中的不可预测性和细微差别。”
这种特定性吸引了越来越多的客户,包括Clay.com、Tolen和New Computer的团队。Raindrop的客户涵盖了从代码生成工具到沉浸式AI叙事伙伴的广泛人工智能垂直领域,每个领域对“不当行为”的定义各不相同。
**因需求而生**
Raindrop的崛起展示了构建人工智能所需的工具需要随着模型本身的发展而进化。随着公司推出更多基于人工智能的功能,可观测性变得至关重要——不仅是为了衡量性能,更是为了在用户升级之前检测隐藏的故障。
用海拉克的话说,Raindrop正在为人工智能做Sentry为网络应用程序所做的工作——除了当前的风险外,还包括幻觉、拒绝及意图不一致。
通过重新品牌化和产品扩展,Raindrop押注下一代软件可观测性将以人工智能为核心设计。
Raindrop的崛起展示了构建人工智能所需的工具需要随着模型本身的发展而进化。随着公司推出更多基于人工智能的功能,可观测性变得至关重要——不仅是为了衡量性能,更是为了在用户升级之前检测隐藏的故障。
**VB每日商业案例洞察**
如果想给老板留下深刻印象,VB每日可以帮你实现。我们为你提供公司如何使用生成式人工智能的内幕信息,从监管变化到实际部署,以便你可以分享见解以获得最大回报。立即订阅阅读我们的隐私政策。
感谢订阅。查看更多VB新闻简报内容。
发生错误。
(以上内容均由Ai生成)