数据之道：Databricks 如何在没有数据标签的情况下优化 AI LLM 微调

快速阅读: 《VentureBeat 公司》消息，达布劳克斯发布测试时自适应优化（TAO）方法，无需标签即可微调大语言模型，性能优于传统微调。TAO通过强化学习和探索性响应生成等机制，帮助企业快速部署定制化AI应用，降低成本并加速上市时间。目前TAO在达布劳克斯平台私人预览中。

订阅我们的每日和每周通讯，获取关于行业领先的人工智能报道的最新资讯和独家内容。了解更多人工智能模型的表现仅与用于训练或微调它们的数据一样好。标记数据是用于帮助人工智能模型在训练期间理解上下文的信息，在它们的历史中，标记数据一直是机器学习（ML）和生成式人工智能的基础要素。随着企业竞相实施人工智能应用，隐藏的瓶颈往往不是技术问题——而是收集、整理和标记领域特定数据的耗时过程。这种“数据标注税”迫使技术领导者在推迟部署和接受通用模型的次优性能之间做出选择。达布劳克斯（Databricks）正在直接针对这一挑战。本周，该公司发布了关于一种名为测试时自适应优化（TAO）的新方法的研究。该方法的核心思想是仅使用公司已有的输入数据来调整企业级大型语言模型（LLM），无需标签，同时实现的结果优于传统微调方法在数千个标记示例上的表现。

达布劳克斯最初是一家数据湖仓平台供应商，并近年来越来越多地专注于人工智能。达布劳克斯以13亿美元收购了马赛克（MosaicML），并逐步推出工具，帮助开发者快速创建人工智能应用。达布劳克斯的马赛克研究团队开发了新的TAO方法。“获取标注数据通常很困难，且不良的标签会直接导致不良输出，这就是为什么前沿实验室使用数据标注供应商购买昂贵的人类注释数据，”达布劳克斯的强化学习负责人兼高级研究科学家布兰登·崔（Brandon Cui）告诉《VentureBeat》。“我们希望满足客户的需求，标签曾是企业采用人工智能的障碍，但通过TAO，不再如此。”

技术创新：TAO如何重新定义LLM微调
本质上，TAO改变了开发人员为特定领域个性化模型的方式。与传统的监督微调方法不同，后者需要成对的输入-输出示例，TAO使用强化学习和系统性探索，仅使用示例查询来改进模型。技术管道采用了四个协同工作的独特机制：

**探索性响应生成**：系统使用未标记的输入示例，并利用先进的提示工程技术为每个示例生成多个潜在响应，探索解决方案空间。
**企业校准奖励建模**：生成的响应由达布劳克斯奖励模型（DBRM）评估，该模型专门设计用于评估企业任务的性能，重点在于正确性。
**基于强化学习的模型优化**：然后通过强化学习优化模型参数，这实际上教会模型直接生成高分响应。
**持续数据飞轮**：当用户与部署系统交互时，新输入会自动收集，形成一个自我改进的循环，无需额外的人类标注努力。

测试时计算并非新概念。OpenAI使用测试时计算开发了o1推理模型，DeepSeek也应用类似技术训练R1模型。TAO与其他测试时计算方法的区别在于，虽然它在训练过程中使用额外计算，但最终调整后的模型具有与原始模型相同的推理成本。这对生产部署至关重要，因为推理成本随使用量增加。“TAO仅在训练过程中使用额外计算；训练后不会增加模型的推理成本，”崔解释道。“从长远来看，我们认为TAO和o1、R1等测试时计算方法将是互补的——你可以两者兼顾。”

基准测试显示相比传统微调有令人惊讶的性能优势
达布劳克斯的研究显示，TAO不仅匹配传统微调——它超越了它。在多个企业相关的基准测试中，达布劳克斯声称这种方法更好，尽管使用的人员努力显著减少。在FinanceBench（财务文件问答基准）上，TAO将Llama 3.1 8B的性能提高了24.7个百分点，Llama 3.3 70B提高了13.4个百分点。对于使用BIRD-SQL基准并适应达布劳克斯方言的SQL生成，TAO分别带来了19.1和8.7个百分点的提升。最值得注意的是，在这些基准测试中，TAO调整后的Llama 3.3 70B的性能接近GPT-4o和o3-mini的表现——这些模型在生产环境中通常运行成本高出10-20倍。这对技术决策者而言是一个极具吸引力的价值主张：能够在特定领域任务上表现与高端产品相当的小型、更实惠的模型，而无需传统所需的大量标注成本。

TAO为企业带来上市时间优势
虽然TAO通过启用更小、更高效的模型实现了明显的成本优势，但其最大的价值可能是在加速人工智能项目的上市时间。“我们认为TAO为企业节省了比金钱更重要的东西：它节省了时间，”崔强调说。“获取标注数据通常需要跨越组织界限，建立新流程，让主题专家进行标注并验证质量。企业没有几个月的时间来协调多个业务部门仅仅是为了原型化一个人工智能用例。”

虽然TAO通过启用更小、更高效的模型实现了明显的成本优势，但其最大的价值可能是在加速人工智能项目的上市时间。这种时间压缩带来了战略优势。例如，一家金融服务公司实施合同分析解决方案时，可以仅使用样本合同开始部署和迭代，而不是等待法律团队标注数千份文档。同样，医疗组织可以仅使用医生查询来改善临床决策支持系统，而无需配对专家响应。

“我们的研究人员花了很多时间与客户交谈，了解他们在构建人工智能系统时面临的实际挑战，并开发新技术来克服这些挑战，”崔说。“我们在许多企业应用场景中应用了TAO，并帮助客户不断迭代和优化他们的模型。”

这对技术决策者的意义
对于希望在人工智能采用方面领先的公司来说，TAO代表了专用人工智能系统部署方式的一个潜在转折点。在不广泛依赖标记数据集的情况下实现高质量、特定领域的性能，解决了大规模人工智能实施的主要障碍之一。这种方法特别有利于那些拥有丰富非结构化数据和特定领域需求但手动标注资源有限的组织——这正是许多企业在其中的位置。随着人工智能在竞争优势中的作用日益重要，能够从概念到部署压缩时间并同时提升性能的技术将区分领导者和落后者。TAO似乎具备这样的潜力，可能使企业能够在几周内而非几个月或几个季度内实施专用人工智能能力。

目前，TAO仅在达布劳克斯平台上线，处于私人预览阶段。

每日商业用例洞察与VB每日
如果你想给老板留下深刻印象，VB每日可以帮你做到。我们为你提供公司如何使用生成式人工智能的内幕消息，从监管变化到实际部署，以便你分享见解以获得最大回报。立即订阅阅读我们的隐私政策感谢订阅。查看更多VB新闻简报。发生错误。

(以上内容均由Ai生成)