快速阅读: 据《风险节拍》称,一项研究发现,语言模型在蒸馏过程中可能隐性学习教师模型的特征,即使数据无关。研究建议选择不同架构的教师与学生模型,以减少风险。 据Anthropic公司近日发布的一项新研究显示,语言模型在蒸馏过程中可能会学到一 […]