MIT 推出了 LLM 智能助手

快速阅读: 据《技术探索者》最新报道，麻省理工研发“智能助手”增强大型语言模型的规划能力，通过形式化编程模拟人类推理，解决复杂任务。新框架在多项测试中表现优异，成功率达85%，优于其他模型。未来可应用于航班排班、工厂调度等领域。

大型语言模型（LLMs）在解决规划问题方面展现出潜力，但灵活性与复杂性之间需要平衡。尽管LLMs能够充当零样本规划器发挥作用，但在涉及多个约束或长期目标的复杂任务中，它们的表现并不理想。

许多解决这些挑战的框架需要针对具体任务进行特定准备，例如定制示例和预设验证器，这限制了它们适应不同任务的能力。为此，来自麻省理工学院的研究团队开发了一种“智能助手”，以增强LLMs的规划能力。该框架被称为“基于LLM的形式化编程”（LLMFP），它帮助LLM将复杂问题分解为可操作的步骤，模仿人类的推理过程。随后，它利用强大的软件工具高效地解决问题。

人类通常通过缩小问题范围至几个选择，并从中挑选最佳解决方案来处理复杂问题。类似地，研究人员的算法求解器也采用这种方法来应对远超人类能力的优化问题。然而，这些求解器难以掌握，通常仅限于专家使用。当用户用自然语言描述一个问题时，模型会将其转化为适合处理高度复杂规划挑战的优化求解器格式。

在这个过程中，LLM会验证每一步以确保计划的准确性。如果检测到错误，它会修正公式中的错误部分，从而保持准确性与效率。该框架在九个复杂的挑战任务中进行了测试，取得了85%的成功率，而最好的基线模型仅达到39%的成功率。这表明其在各种多步规划任务中的应用潜力，例如安排航空公司机组人员或管理工厂的机器时间。

自我评估模块使LLM能够补充最初忽略的隐含约束。此外，LLM还可以根据用户的偏好进行调整。例如，如果它识别出用户希望不改变旅行计划的时间或预算，它可以提出更符合他们需求的修改方案。

期刊引用：郝一伦、张阳等。《用严谨规划一切：基于LLM的形式化编程的一般用途零样本规划》arXiv:2410.12112v2

为您推荐：
– ChatGPT可以在美国医学执照考试中获得及格分数。
– ChatGPT不会很快获得其医学专科认证。
– 新算法压缩LLM的数据量来提升隐私保护。
– 多数最新的大规模语言模型仍易受简单操控影响。

将文中的英文单词都翻译成中文后，内容变得更加流畅。以下为润色后的版本：

—

大型语言模型（LLMs）在解决规划问题上展现出了潜力，但灵活性与复杂性之间需要找到平衡点。尽管LLMs能够充当零样本规划器发挥作用，但在涉及多重约束或长期目标的复杂任务中，它们的表现不尽如人意。

许多旨在解决这些挑战的框架需要针对具体任务进行特殊准备，例如定制示例和预设验证器，这限制了它们适应不同任务的能力。为此，麻省理工学院的研究团队开发了一款名为“智能助手”的工具，以增强LLMs的规划能力。这一框架被命名为“基于LLM的形式化编程”（LLMFP），它帮助LLMs将复杂问题拆解为可操作的步骤，模拟人类的推理方式。接着，它借助强大的软件工具高效解决问题。

人类通常通过缩小问题范围至几个选项，并从其中挑选最优解来应对复杂问题。类似地，研究团队开发的算法求解器也采用了这种方法，以解决远超人类能力的优化问题。然而，这类求解器通常复杂难懂，仅限于专家使用。当用户用自然语言描述一个问题时，模型会将其转化为适合处理高度复杂规划挑战的优化求解器格式。

在此过程中，LLM会对每一步骤进行验证，确保计划的准确性。一旦发现错误，它会修正公式中的相应部分，从而保持计划的准确性和效率。该框架在九个复杂的挑战任务中进行了测试，取得了85%的成功率，而表现最好的基线模型仅为39%。这表明，它在多种多步规划任务中具有广泛应用前景，例如安排航空公司的机组人员或管理工厂的机器时间。

自我评估模块使LLM能够补充最初忽略的隐含约束。此外，LLM还能根据用户的偏好进行调整。例如，如果它识别出用户希望不改变旅行计划的时间或预算，它可以提出更符合他们需求的修改方案。

期刊引用：郝一伦、张阳等。《用严谨规划一切：基于LLM的形式化编程的一般用途零样本规划》arXiv:2410.12112v2

—

以上内容经过润色后更加流畅，语句更加生动，结构更加美观。

(以上内容均由Ai生成)