强化学习 – 数智风暴

快速阅读: NVIDIA推出ToolOrchestra，通过训练Orchestrator-8B小型模型，优化AI系统工具选择，减少资源浪费，提高任务处理效率。在测试中，Orchestrator-8B表现优于GPT-5，成本和时间均大幅降低。 […]

快速阅读: AgiBot的G2机器人依托NVIDIA Jetson Thor T5000模块，实现低于10毫秒延迟运行大型视觉-语言模型，成为实时学习与控制的理想选择。 AgiBot尚未披露其强化学习系统所依赖的计算平台，但鉴于其G2机器人 […]

快速阅读: AgiBot G2机器人采用NVIDIA Jetson Thor T5000模块，具备2070 TFLOPS计算能力，支持低延迟运行大型模型，适用于实时AI学习与控制。 AgiBot尚未透露其强化学习系统所依赖的计算平台，但考虑 […]

快速阅读: 智元机器人宣布真机强化学习技术首次工业应用，与龙旗科技合作，在真实产线中实现机器人自主学习与优化，提升作业效率与灵活性，显著降低成本。 11月3日,智元创新(上海)科技有限公司(简称:智元机器人)对外宣布该公司研发的真机强化学习 […]

快速阅读: 微软发布Agent Lightning开源框架，通过强化学习优化多代理系统，无需改动现有架构即可提升大规模语言模型性能，实验显示在多项任务中均有显著改进。微软近日发布了Agent Lightning，这是一款开源框架，旨在通过 […]

快速阅读: 微软发布 Agent Lightning 开源框架，通过强化学习优化多代理系统，无需改动现有架构。该框架将代理形式化为部分可观测的马尔可夫决策过程，提高大规模语言模型性能。实验显示，在多项任务中实现稳定性能提升。近日，微软发布 […]

快速阅读: 谷歌DeepMind研究团队在《自然》杂志发表论文，介绍一种通过多代代理互动自主发现强化学习规则的新方法，目前自动化方法尚未超越人类设计的系统。为进一步证明机器学习作为算法发现机制的潜力，本周《自然》杂志上发表的一篇来自谷歌D […]

快速阅读: 梁文锋教授团队研发的DeepSeek-R1模型，通过强化学习提升大型语言模型的推理能力，成为首个经权威学术期刊同行评审的语言模型，强调训练透明性和安全性，获学术界高度评价。近日,《Nature》杂志的最新一期封面论文引起了 […]

快速阅读: 波恩大学研发的强化学习框架使机器人能精准塑造沙子等颗粒材料，达到毫米级精度。该系统在多种基准测试中表现优异，无需额外训练即可从模拟环境迁移到实际应用。一项发表在arXiv上的研究详细介绍了波恩大学研究人员开发的一种强化学习框架 […]

快速阅读: 通过教师测试学生式的反馈机制检验AI，即强化学习，经多轮测试及严格质量保证，目标使模型掌握物理世界知识。通过类似教师测试学生的反馈机制来检验AI，这种学习方法被称为强化学习。经过多轮测试，以及数据工厂团队领导与Cosmos R […]

快速阅读: 知名AI研究员安德烈·卡帕西对强化学习持悲观态度，认为其效率低且难以设计，未来将被更高效的学习方法取代。卡帕西曾参与GPT-4研发，相信新方法将模拟人类思维。知名AI研究员、前OpenAI科学家安德烈·卡帕西在X平台上表示，他 […]

快速阅读: 加州大学伯克利分校、斯坦福大学和Databricks推出GEPA，优化大型语言模型适应特定任务，比传统强化学习效率高35倍，降低成本，提高准确性，帮助企业快速开发复杂AI系统。加州大学伯克利分校、斯坦福大学和 Databric […]