LangChain 的 Align Evals 通过提示级校准缩小了评估者信任差距
快速阅读: 据《风险节拍》称,LangChain推出Align Evals功能,帮助用户自定义评估标准,提升AI模型评估准确性与一致性。该技术基于Eugene Yan研究,未来将增加数据分析与自动优化功能。
据媒体报道,近日,LangChain宣布在其平台LangSmith中加入了Align Evals功能,旨在缩小基于大型语言模型的评估者与人类偏好之间的差异,提高评估的准确性和一致性。
LangChain在一篇博客文章中提到,团队经常面临的一个主要问题是,模型的评估分数与团队成员的期望不符,导致评估结果混乱,影响工作效率。Align Evals通过让用户创建自己的基于LLM的评估者,并根据公司的具体需求进行调整,解决了这一问题。这项技术基于亚马逊高级应用科学家Eugene Yan的研究成果,旨在帮助企业更好地理解并优化其AI应用的表现。
使用Align Evals时,用户首先需明确应用的评估标准,比如对于聊天应用而言,准确性是关键指标。接着,用户需要选择用于人工审核的数据样本,这些样本应能全面反映应用的好坏两面。随后,开发人员需为模型评估器设定初始提示,并根据人工评分的结果不断优化这些提示,以达到更好的对齐效果。
随着AI技术的发展,越来越多的企业开始采用评估框架来衡量AI系统的可靠性、行为对齐度及可审计性。像Salesforce、AWS等科技巨头已提供了相应的工具和服务,帮助企业更有效地评估和管理AI应用。未来,预计将有更多的平台推出类似功能,支持用户自定义评估标准,进一步简化评估流程,提升评估效率。
此外,LangChain表示,Align Evals只是他们帮助用户构建更好评估工具的第一步。未来,公司计划增加数据分析功能,以便用户能够追踪评估表现,自动优化评估提示,甚至自动生成新的提示变体,从而不断提升评估的质量和效率。
(以上内容均由Ai生成)