大模型训练 – 数智风暴

摩尔线程发布URPO框架，突破大模型训练瓶颈

快速阅读: 摩尔线程在AAAI2026发布URPO框架，简化大语言模型训练，提升效率和效果。该框架将指令遵循和奖励评判合二为一，实现数据格式统一、自我奖励循环和协同进化机制，显著优于传统方法。近日，摩尔线程的AI研究团队在国际顶级学术会议 […]

发布时间：2025-11-14 13:56 来源：szf