Perplexity 之谜：低比特量化如何影响 AI 精度

发布时间：2025年3月7日来源：szf

快速阅读: 据《黑客 Noon》最新报道，本文研究了CherryQ在大型语言模型LLaMA2上的量化效果。实验结果显示，CherryQ在3位和4位量化下均优于其他方法，显著降低了困惑度，并在多个下游任务中取得了最高平均得分，展示了其在量化后的性能保持能力和泛化能力。该文已获CC BY 4.0许可并在arxiv网站发布。

作者：（1）崔万云，上海财经大学，同等贡献；（2）王千乐，上海财经大学，同等贡献。

1 摘要和引言
2 相关工作
3 参数对模型性能影响的量化及
4 统一混合精度训练
5 大型语言模型中参数异质性的普遍性
6 量化实验及
6.1 实施细节
6.2 基础大型语言模型的量化影响
6.3 聊天大型语言模型的量化影响
6.4 参数选择标准比较、结论与参考文献

6.2 基础大型语言模型的量化影响
在本节中，我们展示了CherryQ在LLaMA2[23]上的主要实验结果，证明了其有效性。我们使用困惑度和下游任务来评估CherryQ，并将其性能与最先进的量化方法进行比较。

6.2.1 困惑度结果
我们遵循[8, 21]的方法，在两个广泛使用的语料库C4和WikiText2[19]上评估CherryQ的困惑度。我们使用C4的验证集以避免数据泄露。表1显示了使用不同量化方法进行3位量化的结果。我们展示了不同模型规模和不同组大小的结果。从结果可以看出，CherryQ在所有模型规模（7B和13B）和分组规模（64和128）下均优于其他所有方法，并在C4和WikiText-2数据集上实现了最低的困惑度。值得注意的是，CherryQ的困惑度显著接近全精度（FP16）基线，与其他方法相比，这突显了其在量化后保持模型性能的能力。

表2比较了不同的4位量化方法。同样，CherryQ在大多数设置中获得了最低的困惑度分数，展示了其在更高位量化设置中的有效性。我们遵循[8, 21]的方法，在两个广泛使用的语料库C4和WikiText2[19]上评估CherryQ的困惑度。我们使用C4的验证集以避免数据泄露。表1显示了使用不同量化方法进行3位量化的结果。我们展示了不同模型规模和不同组大小的结果。

6.2.2 下游任务性能
为了进一步验证特定任务上的有效性，我们在HuggingFace OpenLLM排行榜上的各种下游任务中评估了量化模型。表3展示了LLaMA2的不同3位量化方法的性能对比。CherryQ几乎在所有任务上都优于其他方法，取得了最高的平均得分。这展示了CherryQ能够保持模型在面对下游任务时的泛化能力。表4扩展到4位量化比较。CherryQ继续表现出色，在大多数单个任务上取得最高分，并且总体平均得分最高。这些结果突显了CherryQ在不同量化位数和模型规模下的泛化能力。CherryQ几乎在所有任务上都优于其他方法，取得了最高的平均得分。这展示了CherryQ能够保持模型在面对下游任务时的泛化能力。

本文可在arxiv网站上以CC BY 4.0许可证发布。

(以上内容均由Ai生成)