Perplexity 之谜:低比特量化如何影响 AI 精度
快速阅读: 据《黑客 Noon》最新报道,本文研究了CherryQ在大型语言模型LLaMA2上的量化效果。实验结果显示,CherryQ在3位和4位量化下均优于其他方法,显著降低了困惑度,并在多个下游任务中取得了最高平均得分,展示了其在量化后的性能保持能力和泛化能力。该文已获CC BY 4.0许可并在arxiv网站发布。
作者:(1)崔万云,上海财经大学,同等贡献;(2)王千乐,上海财经大学,同等贡献。
1 摘要和引言
2 相关工作
3 参数对模型性能影响的量化及
4 统一混合精度训练
5 大型语言模型中参数异质性的普遍性
6 量化实验及
6.1 实施细节
6.2 基础大型语言模型的量化影响
6.3 聊天大型语言模型的量化影响
6.4 参数选择标准比较、结论与参考文献
6.2 基础大型语言模型的量化影响
在本节中,我们展示了CherryQ在LLaMA2[23]上的主要实验结果,证明了其有效性。我们使用困惑度和下游任务来评估CherryQ,并将其性能与最先进的量化方法进行比较。
6.2.1 困惑度结果
我们遵循[8, 21]的方法,在两个广泛使用的语料库C4和WikiText2[19]上评估CherryQ的困惑度。我们使用C4的验证集以避免数据泄露。表1显示了使用不同量化方法进行3位量化的结果。我们展示了不同模型规模和不同组大小的结果。从结果可以看出,CherryQ在所有模型规模(7B和13B)和分组规模(64和128)下均优于其他所有方法,并在C4和WikiText-2数据集上实现了最低的困惑度。值得注意的是,CherryQ的困惑度显著接近全精度(FP16)基线,与其他方法相比,这突显了其在量化后保持模型性能的能力。
表2比较了不同的4位量化方法。同样,CherryQ在大多数设置中获得了最低的困惑度分数,展示了其在更高位量化设置中的有效性。我们遵循[8, 21]的方法,在两个广泛使用的语料库C4和WikiText2[19]上评估CherryQ的困惑度。我们使用C4的验证集以避免数据泄露。表1显示了使用不同量化方法进行3位量化的结果。我们展示了不同模型规模和不同组大小的结果。
6.2.2 下游任务性能
为了进一步验证特定任务上的有效性,我们在HuggingFace OpenLLM排行榜上的各种下游任务中评估了量化模型。表3展示了LLaMA2的不同3位量化方法的性能对比。CherryQ几乎在所有任务上都优于其他方法,取得了最高的平均得分。这展示了CherryQ能够保持模型在面对下游任务时的泛化能力。表4扩展到4位量化比较。CherryQ继续表现出色,在大多数单个任务上取得最高分,并且总体平均得分最高。这些结果突显了CherryQ在不同量化位数和模型规模下的泛化能力。CherryQ几乎在所有任务上都优于其他方法,取得了最高的平均得分。这展示了CherryQ能够保持模型在面对下游任务时的泛化能力。
本文可在arxiv网站上以CC BY 4.0许可证发布。
(以上内容均由Ai生成)