节省 AGI 用于鸡尾酒会！为什么 Salesforce 要引入 Enterprise General Intelligence 框架

快速阅读: 据《Diginomica （数码化）》最新报道，Salesforce推出企业通用智能（EGI）框架，强调实用性而非通用人工智能（AGI）炒作，聚焦能力与一致性，重视基础设施和AI素养培训，助力企业构建信任并有效应用AI。

Salesforce推出了企业通用智能（EGI）框架，旨在引导企业在全组织范围内实践并信任地采用人工智能。这一框架主要聚焦于衡量人工智能在一致性和能力维度上的进展。此框架与硅谷流行的模糊通用人工智能（AGI）炒作形成了鲜明对比。根据Salesforce研究首席科学家西尔维奥·萨瓦雷塞的观点，我们必须铭记，通用人工智能系统仍是一项正在进行的工作。生成式AI模型虽取得了显著进步，但也可能产生幻觉并出错。与此同时，企业还需提升内存、界面系统、执行器（包括API调用）、数据架构等基础设施，并构建统一的分类体系。人类智能在企业通用智能中占据重要地位，通过创建反馈机制实现持续改进并建立信任。

提示工程技能的重要性将会下降，取而代之的是，AI素养培训计划应着重于教导员工如何有效地与日益强大的AI系统协作，发展对AI能力及适用场景的理解，并组建具备适当专业知识的跨职能团队。

**一致性 vs 能力**
企业通用智能的核心组成部分之一是能力-一致性矩阵。目前，许多AI工具在某一维度或另一维度上表现优异。高度有能力的聊天机器人能够执行令人印象深刻的任务，但也可能提供不可预测或不可靠的结果；高度一致的AI工具，比如光学字符识别（OCR）引擎，能在狭窄范围内很好地完成简单任务，却难以应对复杂情况。目标在于找到构建既能处理复杂业务场景又能提供一致且可靠结果的系统的方法。

能力是最新一批大型语言模型（LLMs）的核心承诺之一，在最新的基准测试中表现突出。它们在复杂的商业环境中导航、与多个企业系统交互、“推理”业务规则以及在多个系统间综合信息方面也变得愈发擅长。但它们也可能产生幻觉。一致性则是今日简单的AI或机器学习工具的一个特性，这些工具可以在遵循适当风险管理和合规治理框架的同时，提供可靠且可预测的结果。然而，这些系统本身并不灵活。在两个维度上提高的一大挑战是克服当前方法导致的结果不一致问题，具体表现在两方面：个体模型在特定任务中的推理能力；代理系统在更复杂任务中结合多个模型、企业系统和领域特定工具的能力。

**锯齿效应**
为了解决上述问题，Salesforce引入了新的锯齿度量基准，用于量化某些推理任务中顶级能力和较低能力之间的差异。为了减少单个模型的锯齿效应，Salesforce推出了SIMPLE基准测试，用于测试AI模型中的简单推理。该测试包含225个问题，这些问题至少有10%的高中生能够解答，但现有的LLMs却无法应对。此外，新的ContextualJudgeBench模型可以帮助创建更好的外部模型，以评估主模型的准确性、忠实性以及适当的拒绝回答能力。

为了减少代理系统的锯齿效应，Salesforce引入了CRMArena基准框架，用于评估系统在各种角色下执行业务级任务的能力。该框架由多个任务组成，涵盖服务经理、客服代表和分析师等多种角色。

代理系统的另一个重要方面在于提升AI系统从多个系统提取信息并推荐或采取下一步行动的能力，例如从另一个系统请求更多信息、调用最合适的第三方工具（如计算器或企业系统），或者在另一个系统中进行更改。针对非结构化文本和代码的新SFR嵌入模型可以改善用于预热LLMs的数据检索任务的上下文处理。升级版xLAM（大型动作模型）家族预测工具使用和功能调用所需的操作。新的TACO模型支持多模态任务，例如通过视觉和文本数据进行推理以预测适当的操作。

**基础设施至关重要**
先进的AI模型常常吸引最多的关注，但从企业通用智能的角度来看，乏味的基础设施同样重要。企业需要通过投资以下类别来补充新AI模型的采用：

– **记忆方面**：利用技术如检索增强生成和更好的向量嵌入以提取相关上下文。
– **界面系统**：连接AI、用户和其他企业系统。
– **执行系统和执行器**：通过API、工作流自动化以及最终转化为物理系统将决策转化为操作。
– **数据架构**：帮助结构化和语境化结果并简化整体系统。
– **分类法**：改进数据血缘跟踪、维护来源和信任，并改进混合操作。

Salesforce研究孵化和品牌战略主管、AI研究负责人伊泰·阿斯索表示：“AGI有几十种有时相互冲突的定义，可能会因人而异，甚至因受众而异。虽然有些人用它来暗示美好的未来，但通常它似乎是一种引发FOMO（害怕错过）或存在性恐惧的来源。相比之下，企业通用智能看起来是一个更加实用的概念，它让人类参与其中以建立对这些系统的信任。”

Salesforce正与一些早期客户一起尝试该框架，以帮助理解所需的具体技能。这将有助于为更好的企业通用智能素养培训项目奠定基础。它还将有助于为评估企业的当前文化、流程和基础设施的企业通用智能特定能力成熟度模型的创建提供信息，并指导实际步骤以提高成熟度。这些模型已在软件开发、安全等领域广泛应用。

企业通用智能仍处于早期阶段，可能需要几年的时间来改进模型（不仅仅是LLMs）、基础设施和最佳实践，以建立对这些新兴工具的信任和能力。对于行业、教育者和社会而言，一个重要问题是如何培训人们为AI驱动的未来做好准备。当然，数据、架构和领域特定的技能将是重要的，所有这些都可以从现有教学方法和评估技术的逐步改进中受益。但是，我们如何培养下一代所需的探索精神和系统思维技能，以提高信任和道德采用，让下一代生活得更好？你甚至如何衡量好奇心，更不用说培养它呢？

(以上内容均由Ai生成)