Grpo – 数智风暴

GRPO 的效率可以提高 10 倍吗？快手 AI 的 SRPO 建议 SRPO 是

快速阅读: 据《同步》最新报道，快手Kwaipilot团队提出两阶段历史重采样策略优化（SRPO），解决了大规模语言模型强化学习中的跨领域冲突等问题，使Qwen-32B在数学和代码领域达到DeepSeek-R1-Zero水平，且训练效率大幅 […]

发布时间：2025-04-24 10:59 来源：szf