LangChain 的 Align Evals 通过提示级校准缩小了评估者信任差距

发布时间：2025年7月31日来源：szf

快速阅读: 据《风险节拍》称，LangChain推出Align Evals功能，帮助用户自定义评估标准，提升AI模型评估准确性与一致性。该技术基于Eugene Yan研究，未来将增加数据分析与自动优化功能。

据媒体报道，近日，LangChain宣布在其平台LangSmith中加入了Align Evals功能，旨在缩小基于大型语言模型的评估者与人类偏好之间的差异，提高评估的准确性和一致性。

LangChain在一篇博客文章中提到，团队经常面临的一个主要问题是，模型的评估分数与团队成员的期望不符，导致评估结果混乱，影响工作效率。Align Evals通过让用户创建自己的基于LLM的评估者，并根据公司的具体需求进行调整，解决了这一问题。这项技术基于亚马逊高级应用科学家Eugene Yan的研究成果，旨在帮助企业更好地理解并优化其AI应用的表现。

使用Align Evals时，用户首先需明确应用的评估标准，比如对于聊天应用而言，准确性是关键指标。接着，用户需要选择用于人工审核的数据样本，这些样本应能全面反映应用的好坏两面。随后，开发人员需为模型评估器设定初始提示，并根据人工评分的结果不断优化这些提示，以达到更好的对齐效果。

随着AI技术的发展，越来越多的企业开始采用评估框架来衡量AI系统的可靠性、行为对齐度及可审计性。像Salesforce、AWS等科技巨头已提供了相应的工具和服务，帮助企业更有效地评估和管理AI应用。未来，预计将有更多的平台推出类似功能，支持用户自定义评估标准，进一步简化评估流程，提升评估效率。

此外，LangChain表示，Align Evals只是他们帮助用户构建更好评估工具的第一步。未来，公司计划增加数据分析功能，以便用户能够追踪评估表现，自动优化评估提示，甚至自动生成新的提示变体，从而不断提升评估的质量和效率。

(以上内容均由Ai生成)