AI

苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

发布时间:2025年8月26日    来源:szf
苹果推出AI训练新方法 用任务清单替代人工评分显著提升模型性能

快速阅读: 苹果研究团队提出基于清单反馈的强化学习方法RLCF,替代传统点赞评分机制,大幅提升大语言模型执行复杂指令能力,测试显示性能显著提升,但需更强计算资源且专为复杂任务设计。

苹果公司研究团队近日在 最新 论文中提出了一种名为”基于清单反馈的强化学习”(RLCF)的创新训练方法,通过用具体任务清单替代传统的人工点赞评分机制,大幅提升了大语言模型执行复杂指令的能力。

据了解,RLCF全称为Reinforcement Learning from Checklist Feedback,与目前广泛采用的”人类反馈强化学习”(RLHF)方法形成鲜明对比。传统RLHF方法主要依赖人工进行简单的点赞或点踩评价,而RLCF则为每条用户指令生成详细的检查清单,并按0-100分的标准对各项内容进行精确评分,以此作为模型优化的指导依据。

苹果研究团队选择了强指令跟随模型Qwen2.5-7B-Instruct作为测试对象,并在五个常用评测基准上进行了全面验证。测试结果显示,RLCF是 唯一 在所有测试项目中都取得性能提升的训练方案。

具体数据显示,在FollowBench测试中,硬性满意率提升了4个百分点。InFoBench评分提高6点,Arena-Hard胜率增加3点。在某些特定任务中,性能提升幅度 最高 达到8.2%。这些数据表明,清单反馈方法在处理复杂多步骤任务时表现尤为突出。

在技术实现方面,苹果团队的清单生成过程颇具创新性。他们采用更大规模的Qwen2.5-72B-Instruct模型,结合现有研究方法,为13万条指令构建了名为”WildChecklists”的专用数据集。清单内容设计为明确的二元判断项,例如”是否翻译成西班牙语”等具体要求。随后,大模型对候选回答进行逐项评分,通过综合加权处理后形成训练奖励信号,指导小模型的学习优化过程。

不过,苹果研究人员也坦率承认了该方法的局限性。首先,RLCF需要依赖更强大的模型作为评判标准,这在计算资源受限的场景下可能面临实施困难。其次,该方法专门针对复杂指令执行能力的提升而设计,并非用于安全对齐目的,因此无法替代现有的安全性评估和调优机制。对于其他类型的AI任务,RLCF方法的适用性还需要进一步的实验验证。

业界专家认为,苹果此次提出的RLCF方法为AI模型训练提供了新的思路,特别是在处理复杂多步骤任务方面展现出明显优势。随着技术的进一步完善,这一方法有望在实际应用中发挥更大作用。

(以上内容均由Ai生成)

你可能还想读

软银收购DigitalBridge加码AI算力布局

软银收购DigitalBridge加码AI算力布局

快速阅读: 据彭博社报道,美国数字桥公司加速布局亚太数字基建,整合通信塔与数据中心资源,以满足AI算力激增带来的低延迟、高带宽需求,强化其全球基础设施地位。 近日,美国数字桥公司(DigitalBridge)在拓展亚洲数字基础设施布局方面动 […]

发布时间:2025年12月8日
贝莱德:AI投资将驱动美国经济韧性增长

贝莱德:AI投资将驱动美国经济韧性增长

快速阅读: 据贝莱德发布消息称,美国经济正迈入由大规模人工智能投资驱动的资本密集型阶段,预计2030年全球AI相关资本支出将达5至8万亿美元,重塑产业格局并影响供应链与劳动力市场。 日前,全球知名资产管理公司贝莱德在其最新发布的全球经济展望 […]

发布时间:2025年12月8日
硅谷预言:AI将重塑工作与收入

硅谷预言:AI将重塑工作与收入

快速阅读: 据最新消息,人工智能加速冲击全球就业结构,部分职业或将消失,肯尼亚试点全民基本收入项目引发隐私争议,国际社会呼吁构建适应AI时代的社会保障政策框架。 近日,人工智能技术加速渗透全球多个行业,引发对就业结构和收入模式的广泛关注。多 […]

发布时间:2025年12月8日
AI重塑广告业:从执行到智能协同

AI重塑广告业:从执行到智能协同

快速阅读: 据最新消息,广告传播机构加速转型为智能协同伙伴,依托AI优化创意系统,融合算法效率与人文共情,构建“智能+共情”双轮驱动战略,提升传播精准度与内容温度。 人工智能正加速从实验室走向实际应用,其价值日益体现在广告、媒体等行业的日常 […]

发布时间:2025年12月8日
AI推动数据分析普及,渠道伙伴机遇扩大

AI推动数据分析普及,渠道伙伴机遇扩大

快速阅读: 据最新消息,Tableau首席产品官指出AI正推动数据分析进入新阶段,聚焦对话式分析、实时洞察与语义层技术三大方向,2025年成AI应用部署关键年。 日前,数据分析企业Tableau首席产品官索南德·琼斯表示,随着人工智能技术加 […]

发布时间:2025年12月8日
欧盟报告:AI训练应借鉴Napster版权教训

欧盟报告:AI训练应借鉴Napster版权教训

快速阅读: 欧洲议会法律事务委员会发布报告,主张通过强制性法定许可制度解决AI训练数据版权争议,允许使用公开作品并支付统一版税,以平衡创新激励与权利人补偿,避免“选择退出”机制导致模型偏见。 日前,欧洲议会法律事务委员会发布题为《版权与人工 […]

发布时间:2025年12月8日
特朗普推AI新政,各州监管加速推进

特朗普推AI新政,各州监管加速推进

快速阅读: 据最新消息,美国科罗拉多、加州和纽约等州加速推进AI监管立法,分别聚焦算法歧视、高风险系统披露及自动化决策监管,但行业担忧各州标准不一或阻碍全国AI产业发展。 近日,美国多个州加快人工智能监管立法步伐,以应对算法偏见、数据隐私及 […]

发布时间:2025年12月8日
塔塔与英特尔携手布局半导体与AI

塔塔与英特尔携手布局半导体与AI

快速阅读: 12月8日消息,印度塔塔集团与英特尔达成战略合作,将共同推进半导体制造、封装测试及AI计算在印发展,强化本土产业链并把握人工智能市场机遇。 今日,印度塔塔集团与英特尔公司宣布达成战略合作,双方将共同推进半导体及系统制造、封装测试 […]

发布时间:2025年12月8日