Yelp 如何审查竞争 LLM 的正确性、相关性和语气,以开发其用户友好的 AI 助手
快速阅读: 据《VentureBeat 公司》称,Yelp多年来一直利用人工智能提供餐饮信息,但在引入更复杂的人工智能功能如Yelp助手时遭遇挑战。尽管初期测试反响良好,但全面推广后使用率却下降。Yelp发现,休闲用户并不习惯与人工智能交互。为此,Yelp不断调整和优化其AI功能,确保用户体验自然流畅。目前,Yelp正致力于改进其评论洞察和摘要功能,以更好地满足客户需求。
加入我们的每日和每周通讯,获取行业领先的人工智能最新动态和独家内容。了解更多详情评价应用。 Yelp 多年来一直为食客和其他消费者提供有用的信息。它从早期就开始尝试机器学习。在最近人工智能技术的爆炸性增长中,它在努力采用现代大型语言模型以支持某些功能时仍遇到了障碍。Yelp 意识到,尤其是那些偶尔使用该应用的客户,在与其人工智能功能(如其人工智能驱动的助手)互动时遇到困难。“我们看到的一个明显教训是,构建看起来很酷的东西很容易,但要构建既看起来酷又有用的东西却非常难,”Yelp 首席产品官克雷格·萨尔达尼亚在接受《创业内幕》采访时说。这肯定不是一帆风顺的。在 2024 年 4 月将 Yelp 助手(其人工智能驱动的服务搜索助手)向更广泛的客户群推出后,Yelp 发现其人工智能工具的使用率实际上开始下降。“让我们感到意外的是,当我们将其作为测试版向消费者推出——少数用户和非常熟悉该应用的人——他们非常喜欢。我们得到了一个强烈的信号,认为这会成功,然后我们将其推广给所有人,性能却急剧下降,”萨尔达尼亚说。“我们花了很长时间才弄清楚原因。”事实证明,Yelp 的休闲用户,那些偶尔访问网站或应用以寻找新裁缝或水管工的人,并不期待立即与人工智能代表交流。
从简单的到更复杂的 AI 功能,大多数人知道 Yelp 是一款用于查找餐厅评论和菜单照片的网站和应用。我用 Yelp 来找新餐馆的食物图片,看看其他人是否也对某种特别平淡无奇的菜肴有相同的感受。它还会告诉我计划当天使用的咖啡店是否有 Wi-Fi、插座和座位,这在曼哈顿是非常少见的。萨尔达尼亚回忆说,Yelp 在过去十年里一直在投资人工智能。“早在 2013-2014 年间,我们正处于人工智能发展的不同阶段,因此我们的重点是建立自己的模型来理解查询。建立有意义联系的一部分工作是帮助人们细化自己的搜索意图,”他说。但随着人工智能的不断发展,Yelp 的需求也在变化。它投资于人工智能以识别用户提交的图片中的食物,以识别受欢迎的菜肴,然后推出了新的方式来连接手艺人和服务,并帮助用户在平台上进行搜索。Yelp 助手帮助 Yelp 用户找到合适的“专业人士”合作。人们可以点击聊天框并使用提示或输入需要完成的任务。然后,助理会提出后续问题以缩小潜在服务提供商的范围,最后起草消息给可能想竞标工作的专业人士。萨尔达尼亚表示,鼓励专业人士直接回应用户,尽管他承认许多大品牌通常会通过呼叫中心处理由 Yelp 的人工智能助理生成的消息。
除了 Yelp 助手,Yelp 还推出了评论洞察和摘要功能。大型语言模型分析用户和评论者的观点,Yelp 将其收集为情感分数。Yelp 使用详细的 GPT-4o 提示生成话题列表的数据集。然后,它使用 GPT-4o-mini 模型进行微调。评论亮点功能,呈现来自评论的信息,也使用大型语言模型提示生成数据集。然而,它是基于 GPT-4,并通过 GPT-3.5 Turbo 进行微调。Yelp 表示将使用 GPT-4o 和 o1 版本更新该功能。Yelp 与其他许多公司一样,利用大型语言模型来改进评论的实用性,通过添加基于客户评论的更好搜索功能。例如,亚马逊推出了鲁弗斯,一个人工智能驱动的助手,帮助人们找到推荐的商品。大型模型和性能需求对于包括人工智能助理在内的许多新人工智能功能,Yelp 转向了 OpenAI 的 GPT-4o 和其他模型,但萨尔达尼亚指出,无论使用哪种模型,Yelp 的数据才是其助手的秘密武器。Yelp 不想局限于单一模型,并且对哪些大型语言模型能为客户提供最佳服务持开放态度。“我们使用来自 OpenAI、Anthropic 以及其他 AWS Bedrock 上的模型,”萨尔达尼亚说。萨尔达尼亚解释说,Yelp 创建了一个标准来测试模型在准确性、相关性、意识、客户安全性和合规性方面的表现。他说,“确实是顶级模型”的表现最好。公司在考虑迭代成本和响应延迟之前,会对每个模型进行小规模试点测试。
教育用户。Yelp 还进行了有组织的努力,以使休闲用户和重度用户都能适应新的 AI 功能。萨尔达尼亚说,他们首先意识到,特别是对于人工智能助理,语气必须感觉像人。它不能回复得太快或太慢;不能过于鼓励或太生硬。“我们在帮助人们感到舒适方面投入了许多努力,尤其是在初次回应时。一旦做到这一点,很明显可以看到参与度的显著提升,”萨尔达尼亚说。这一过程的一部分涉及训练 Yelp 助手使用某些词汇并保持积极的态度。经过所有这些微调后,萨尔达尼亚表示他们终于看到了 Yelp 人工智能功能更高的使用率。关于业务应用场景的每日洞察。
(以上内容均由Ai生成)