AI

腾讯R-Zero展示大模型自我训练能力,告别数据标注

发布时间:2025年8月29日    来源:szf
腾讯R-Zero展示大模型自我训练能力,告别数据标注

快速阅读: 腾讯AI实验室与圣路易斯华盛顿大学开发R-Zero框架,使大型语言模型无需人类标注数据即可自我改进,显著提升推理能力,降低成本,加速复杂任务模型开发。

腾讯AI实验室与圣路易斯华盛顿大学的研究人员开发了一种新的训练框架,使大型语言模型(LLM)能够在无需人类标注数据的情况下自我改进。这种名为R-Zero的技术利用强化学习自动生成训练数据,解决了创建自进化AI系统的主要瓶颈之一。R-Zero通过两个独立模型相互作用和挑战对方来实现共同进化。

实验表明,R-Zero显著提升了不同LLM的推理能力,这可能降低高级AI训练的复杂性和成本。对企业而言,这种方法可以加速专门用于复杂推理任务的模型开发,而无需耗费大量资源来整理标注数据集。

Visa投资35亿美元押注AI领域

自进化LLM的核心理念是创建能够自主生成、精炼并从自身经验中学习的AI系统。这为更智能和强大的AI提供了一条可扩展的路径。然而,训练这些模型需要大量的高质量任务和标签,作为AI学习的监督信号。依赖人工标注数据不仅成本高昂且速度慢,还成为AI潜力发展的根本瓶颈。为解决这一问题,研究人员开发了无需标签的方法,直接从模型的输出中提取奖励信号,例如通过测量其对答案的信心。虽然这些方法消除了对显式标签的需求,但仍依赖于预设的任务集,限制了其在真正自进化场景中的应用。

AI扩展面临极限

功耗上限、不断上涨的令牌成本和推理延迟正在重塑企业AI。顶尖团队正采取行动:

– 将能源转化为战略优势

– 构建高效的推理架构以实现真正的吞吐量提升

– 通过可持续的AI系统解锁竞争优势回报

其他方法涉及让模型生成自己的学习任务。但在开放性推理等领域,由于没有简单的方法来验证正确性(如代码执行器),确保自生成数据的质量成为重大障碍。

R-Zero的工作原理

R-Zero是一个旨在训练从零外部数据开始进化的推理LLM的框架。过程从一个基础模型开始,该模型分为“挑战者”和“解题者”两个角色。这两个模型独立优化,但通过持续的互动周期共同进化。

挑战者的任务是创建刚好处于解题者当前能力边缘的新任务,既不太容易也不太难。解题者则因解决这些日益复杂的任务而获得奖励。论文合著者、圣路易斯华盛顿大学博士生黄成松在接受VentureBeat采访时指出,这种动态关系至关重要,因为生成高质量问题是比找到答案更复杂的任务。

“我们在实际操作中发现,最大的挑战不是生成答案……而是生成高质量、新颖且逐渐增加难度的问题。”黄成松说,“我们认为,好老师远比好学生稀有。共同进化动态自动化地创造了这个‘老师’,确保了一个稳定且动态的课程,推动解题者的能力远远超过静态预设数据集所能达到的水平。”

当挑战者生成足够多的问题后,这些问题经过筛选以确保多样性,并编入训练数据集。在解题者的训练阶段,它会在这些具有挑战性的问题上进行微调。每个问题的“正确”答案由解题者之前的尝试多数投票决定。

整个过程不断重复,形成一个无需人为干预的自我改进循环,使两个模型在每次迭代中都变得更加优秀。

R-Zero的实际应用

研究人员在多个开源LLM上测试了R-Zero,包括来自Qwen3和OctoThinker系列的模型。他们首先在数学问题上训练这些模型,然后测试所学推理技能是否能推广到其他复杂的一般领域基准测试,如MMLU-Pro(多语言理解和推理任务)和SuperGPQA(科学和推理任务)。

研究结果显示,R-Zero 是一个高效且适用于多种模型的框架。例如,在数学推理基准测试中,R-Zero 将 Qwen3-4B-Base 模型的平均得分提高了 6.49 分。训练过程显著提升了性能,多次迭代后效果更加明显。Qwen3-8B-Base 模型经过三次迭代后,其平均数学得分提高了 5.51 分。

研究人员发现,第一次迭代后性能立即提升,这验证了挑战者在创建高质量学习课程中的有效性。“这表明,由强化学习训练的挑战者生成的智能课程比未训练的生成器更有效。” 研究人员在论文中写道。

值得注意的是,从数学问题中学到的技能可以有效转移到一般推理任务中,从而增强模型的基本能力。例如,同一 Qwen3-4B-Base 模型在一般领域推理基准测试中的表现提高了 7.54 分。另一个重要发现是,R-Zero 可以作为预训练的关键步骤。首先通过 R-Zero 提升的模型,在后续使用传统标注数据微调时,表现更加出色,表明该框架具有放大性能的效果。

对于企业而言,“零数据”方法可能是一个重大突破,特别是在高质量数据稀缺或不存在的利基领域。黄指出,R-Zero 的主要优势在于能够绕过人工智能开发中最昂贵和耗时的部分——数据管理。“我们的方法完全绕过了寻找、标注和管理高质量数据这一基本瓶颈。” 他说,“这不仅是一种成本节约措施,还是一条通向超越人类能力的 AI 发展路径,因为 AI 不再受制于人类知识或数据的范围。”

然而,共进化过程也揭示了一个关键挑战。随着挑战者成功生成越来越难的问题,求解者的多数投票产生可靠“正确”答案的能力开始下降。研究人员发现,这些自动生成标签的真实准确性从第一次迭代的 79% 下降到第三次迭代的 63%,与强大的 GPT-4 相比,数据质量的下降成为系统长期性能的一个关键权衡和潜在瓶颈。

黄承认,这是一个自我进化范式的基本问题。“我们的工作证明了这种方法的潜力,但我们承认,保持稳定、长期改进而不停滞是一个重大障碍。” 他说,“解决这个问题将是整个研究社区面临的下一个关键步骤。”

研究人员还指出了框架的一个局限性:当前机制最适合像数学这样可以客观确定正确性的领域。那么,如何将这一强大范式扩展到更主观的企业任务,如生成营销文案或总结报告呢?

黄建议,一个可能的解决方案是引入第三个共进化的 AI 代理——“验证者”或“评论者”。“这个验证者将接受训练,评估求解者输出的质量,而不仅仅是简单的‘正确’答案。” 他解释道,“共进化动态将涉及挑战者创建提示,求解者生成响应,验证者提供质量信号,三个模型共同进步。”

尽管这仍然是未来研究的方向,但它指向了一个未来,即完全自主的 AI 系统不仅能掌握客观逻辑,还能处理主观推理。

(以上内容均由Ai生成)

你可能还想读

TCS推AI机器狗进军航空业

TCS推AI机器狗进军航空业

快速阅读: 据印度塔塔咨询服务公司(TCS)发布消息称,全球航空航天业加速绿色智能化转型,40%企业预计五年内实现“熄灯工厂”,数字孪生与eVTOL成重点方向,物理AI机器人有望获批用于高危场景。 日前,全球航空航天产业加速向绿色化、智能化 […]

发布时间:2025年12月8日
Meta签约多家媒体,为AI提供实时新闻

Meta签约多家媒体,为AI提供实时新闻

快速阅读: 据媒体报道,Meta与CNN、福克斯新闻等多家国际媒体签署AI数据合作协议,重启付费合作以提升Meta AI在新闻时效性与准确性方面的表现,并引导用户访问合作方网站。 日前,美国科技企业Meta宣布与多家国际新闻机构签署商业人工 […]

发布时间:2025年12月8日
Semaverse推AI平台赋能并购决策

Semaverse推AI平台赋能并购决策

快速阅读: 据最新消息,人工智能初创企业Semaverse近日推出“并购智能基础设施”平台,依托多智能体架构与智能记忆系统,为私募股权基金等提供覆盖交易全周期的五大智能化功能,助力数据驱动决策。 近日,人工智能初创企业Semaverse正式 […]

发布时间:2025年12月8日
Gartner建议全面禁用AI浏览器

Gartner建议全面禁用AI浏览器

快速阅读: 据Gartner发布消息称,AI浏览器存在严重数据安全与隐私风险,其侧边栏功能可能自动上传敏感信息至云端,企业部署前须严格评估后端安全机制并限制高危操作场景。 日前,国际知名研究机构Gartner发布风险警示,指出当前流行的AI […]

发布时间:2025年12月8日
利雅得航空携手IBM打造全球首家AI原生航司

利雅得航空携手IBM打造全球首家AI原生航司

快速阅读: 据最新消息,IBM依托混合云与红帽OpenShift技术,为175国客户提供AI及量子计算等创新方案,加速金融、医疗等关键领域数字化转型,深化本地化服务以提升全球产业链智能化水平。 国际商业机器公司(IBM)日前宣布,其作为全球 […]

发布时间:2025年12月8日
英语国家民众对AI更悲观

英语国家民众对AI更悲观

快速阅读: 据YouGov发布消息称,其2025年8月对九国调查显示,西欧民众对AI态度较积极,英语国家更悲观,就业影响最受担忧,而医疗、办公等领域获普遍认可。 日前,国际民调机构YouGov发布一项涵盖九国的调查报告显示,公众对人工智能( […]

发布时间:2025年12月8日
AI无法替代税务专家的判断与质疑

AI无法替代税务专家的判断与质疑

快速阅读: 12月8日消息,专家警示AI在税务申报中存在合规与伦理风险,强调其无法替代专业判断,呼吁合理界定应用边界,防范不法机构借智能算法诱导激进申报,确保人机协同、合法合规。 近日,有关人工智能在税务申报领域应用的讨论引发关注。专家指出 […]

发布时间:2025年12月8日
德州法学院以伦理先行培养AI时代律师

德州法学院以伦理先行培养AI时代律师

快速阅读: 据彭博法律报道,美国得州多所法学院以伦理为先推动AI审慎融入法律教育,要求明确使用规范并强调人类判断不可替代,呼应州律师协会第705号伦理准则。 近日,美国得克萨斯州在人工智能时代积极探索法律教育的务实路径,强调以伦理为先、审慎 […]

发布时间:2025年12月8日