标签: 强化学习
-
NVIDIA 推出 Orchestrator-8B,强化学习优化工具选择
快速阅读: NVIDIA推出ToolOrchestra,通过训练Orchestrator-8B小型模型,优化AI系统工具选择,减少资源浪费,提高任务处理效率。在测试中,Orchestrator-8B表现优于GPT-5,成本和时间均大幅降低。 […]
发布时间:2025-12-01 20:14 来源:szf -
AgiBot利用强化学习革新工业机器人领域
快速阅读: AgiBot的G2机器人依托NVIDIA Jetson Thor T5000模块,实现低于10毫秒延迟运行大型视觉-语言模型,成为实时学习与控制的理想选择。 AgiBot尚未披露其强化学习系统所依赖的计算平台,但鉴于其G2机器人 […]
发布时间:2025-11-04 11:51 来源:szf -
AgiBot推出工厂强化学习新里程碑
快速阅读: AgiBot G2机器人采用NVIDIA Jetson Thor T5000模块,具备2070 TFLOPS计算能力,支持低延迟运行大型模型,适用于实时AI学习与控制。 AgiBot尚未透露其强化学习系统所依赖的计算平台,但考虑 […]
发布时间:2025-11-04 11:47 来源:szf -
智元称其研发真机强化学习技术已落地工业产线
快速阅读: 智元机器人宣布真机强化学习技术首次工业应用,与龙旗科技合作,在真实产线中实现机器人自主学习与优化,提升作业效率与灵活性,显著降低成本。 11月3日,智元创新(上海)科技有限公司(简称:智元机器人)对外宣布该公司研发的真机强化学习 […]
发布时间:2025-11-04 11:38 来源:szf -
微软发布Agent Lightning,强化学习优化多代理系统
快速阅读: 微软发布Agent Lightning开源框架,通过强化学习优化多代理系统,无需改动现有架构即可提升大规模语言模型性能,实验显示在多项任务中均有显著改进。 微软近日发布了Agent Lightning,这是一款开源框架,旨在通过 […]
发布时间:2025-11-01 00:11 来源:szf -
微软发布Agent Lightning,强化学习优化多代理系统性能
快速阅读: 微软发布 Agent Lightning 开源框架,通过强化学习优化多代理系统,无需改动现有架构。该框架将代理形式化为部分可观测的马尔可夫决策过程,提高大规模语言模型性能。实验显示,在多项任务中实现稳定性能提升。 近日,微软发布 […]
发布时间:2025-10-30 12:34 来源:szf -
谷歌DeepMind自主发现强化学习新规则
快速阅读: 谷歌DeepMind研究团队在《自然》杂志发表论文,介绍一种通过多代代理互动自主发现强化学习规则的新方法,目前自动化方法尚未超越人类设计的系统。 为进一步证明机器学习作为算法发现机制的潜力,本周《自然》杂志上发表的一篇来自谷歌D […]
发布时间:2025-10-25 10:59 来源:szf -
DeepSeek-R1登Nature封面,强化学习提升AI推理能力
快速阅读: 梁文锋教授团队研发的DeepSeek-R1模型,通过强化学习提升大型语言模型的推理能力,成为首个经权威学术期刊同行评审的语言模型,强调训练透明性和安全性,获学术界高度评价。 近日,《Nature》杂志的 最新 一期封面论文引起了 […]
发布时间:2025-09-18 16:29 来源:szf -
机器人学会用强化学习塑造沙子
快速阅读: 波恩大学研发的强化学习框架使机器人能精准塑造沙子等颗粒材料,达到毫米级精度。该系统在多种基准测试中表现优异,无需额外训练即可从模拟环境迁移到实际应用。 一项发表在arXiv上的研究详细介绍了波恩大学研究人员开发的一种强化学习框架 […]
发布时间:2025-09-15 21:28 来源:szf -
英伟达用“人类考官”测试AI,强化学习提升模型常识
快速阅读: 通过教师测试学生式的反馈机制检验AI,即强化学习,经多轮测试及严格质量保证,目标使模型掌握物理世界知识。 通过类似教师测试学生的反馈机制来检验AI,这种学习方法被称为强化学习。经过多轮测试,以及数据工厂团队领导与Cosmos R […]
发布时间:2025-09-02 19:10 来源:szf -
科学家Andrej Karpathy长期看衰强化学习
快速阅读: 知名AI研究员安德烈·卡帕西对强化学习持悲观态度,认为其效率低且难以设计,未来将被更高效的学习方法取代。卡帕西曾参与GPT-4研发,相信新方法将模拟人类思维。 知名AI研究员、前OpenAI科学家安德烈·卡帕西在X平台上表示,他 […]
发布时间:2025-08-29 17:05 来源:szf -
GEPA优化大模型,无需昂贵强化学习
快速阅读: 加州大学伯克利分校、斯坦福大学和Databricks推出GEPA,优化大型语言模型适应特定任务,比传统强化学习效率高35倍,降低成本,提高准确性,帮助企业快速开发复杂AI系统。 加州大学伯克利分校、斯坦福大学和 Databric […]
发布时间:2025-08-19 18:54 来源:szf