快速阅读: 摩尔线程在AAAI2026发布URPO框架,简化大语言模型训练,提升效率和效果。该框架将指令遵循和奖励评判合二为一,实现数据格式统一、自我奖励循环和协同进化机制,显著优于传统方法。 近日,摩尔线程的AI研究团队在国际顶级学术会议 […]