腾讯提出无训练优化方法:120元成本实现传统7万元微调效果
快速阅读: 腾讯AI实验室推出Training-Free GRPO技术,通过外部知识库更新代替参数微调,显著降低成本同时提升模型性能。实验显示,该技术在数学推理和网络搜索任务中表现优异,优化成本低至120元人民币。
腾讯AI实验室最近推出了一项名为“无训练组相对策略优化”(Training-Free GRPO)的新技术。该技术通过利用外部知识库更新来代替传统的参数微调,在大幅降低训练成本的同时,达到了与昂贵微调方案相媲美的性能提升。其核心创新点在于将经验知识转化为令牌级别的先验信息,从而在不改变模型参数的情况下实现性能优化。腾讯研究团队在DeepSeek-V3.1-Terminus模型上的实验证明,这种方法在数学推理和网络搜索等任务中表现突出。
从技术实现的角度来看,传统的大语言模型在处理涉及外部工具调用的复杂任务时存在不足。而Training-Free GRPO通过保持模型主体参数不变,仅通过动态维护一个外部经验知识库来提高模型能力,不仅减少了计算资源的消耗,还提升了模型的跨领域泛化能力。实验数据显示,这种方法在数学竞赛级别的测试AIME24和AIME25中,DeepSeek-V3.1-Terminus模型的准确率分别从80%和67.9%提升到了82.7%和73.3%。更重要的是,这种提升仅用了100个跨域训练样本,而传统强化学习方法要达到类似效果通常需要数千个样本,成本高达数万美元。
在网络搜索任务测试中,该方法同样表现出色,模型的Pass@1指标从63.2%提升到67.8%。这些测试结果表明,Training-Free GRPO在保持较低成本的同时,能够在不同类型的任务中实现稳定的性能改进。据官方数据显示,使用Training-Free GRPO优化一个模型的成本约为120元人民币,而传统的参数微调方案通常需要投入约7万元人民币的计算资源。这主要是因为该方法避免了梯度回传和参数更新等计算密集型操作。
这项新技术的发布为AI模型优化开辟了新路径,尤其对于资源有限的中小企业和研究机构来说,这种低成本高效的优化方案大大降低了大模型应用的门槛。然而,值得注意的是,该方法的适用范围及其在更多场景中的表现仍需进一步验证,目前公开的测试数据主要集中在数学推理和信息检索等特定任务上。论文链接:https://arxiv.org/abs/2510.08191
(以上内容均由Ai生成)