快速阅读: 据《VentureBeat 公司》称,卡内基梅隆大学的研究人员开发了一种名为长度控制策略优化(LCPO)的技术,通过训练让大型语言模型在保持推理准确性的同时控制链式思维(CoT)的长度。实验表明,基于LCPO训练的模型在准确性与 […]