ChatGPT 风格的模型可以在量化中幸存下来吗?
快速阅读: 据《黑客 Noon》称,我们在Vicuna-1.5上使用3位量化进行实验,组大小为128。通过Vicuna-bench基准的成对比较评估模型性能,使用GPT-4进行评判。结果显示,CherryQ在保持聊天模型性能方面优于其他量化方法,3位CherryQ在胜平负比例上略优于FP16 Vicuna模型。该研究已发布于arxiv网站,采用CC BY 4.0许可。
作者:(1) 崔婉云,上海财经大学,同等贡献;(2) 王乾乐,上海财经大学,同等贡献。
摘要和1 引言
2 相关工作
3 参数对模型性能影响的量化及
4. 统一混合精度训练
5 大型语言模型中参数异质性的普遍性
6 量化实验及
6.1 实施细节
6.2 基础大型语言模型量化效果
6.3 聊天大型语言模型量化效果
6.2 基础大型语言模型量化效果
6.4 参数选择标准比较
结论
参考文献
我们在Vicuna-1.5 [5]上进行实验,采用组大小为128的3位量化。评估为了评估量化的开放式聊天模型的性能,我们在Vicuna-bench [26]上进行了成对比较,该基准包含80个测试样本。我们将量化的模型生成的回答与原始16位Vicuna-1.5生成的回答进行对比。评估使用GPT-4进行,GPT-4自动将量化模型的回答分类为“胜”、“平”或“负”,相对于FP16模型的回答。为了避免评估顺序带来的影响,我们按照[17]的方法,以两种顺序对比回答,总共进行了160次试验。图3展示了每个量化的模型与其FP16对应模型的成对比较结果。结果显示,CherryQ在保持聊天模型性能方面始终优于其他量化方法。它在与FP16模型的对抗中赢得了最多的胜利和打平次数,同时减少了失败次数。值得注意的是,3位CherryQ在胜平负比例上略优于FP16 Vicuna模型,表明3位量化模型的表现与FP16模型相当,甚至更好。尽管直观上CherryQ无法超越目标16位模型,我们认为这结果表明即使在3位的情况下,CherryQ也几乎保持了所有性能,使得GPT-4难以分辨低比特和FP16模型之间的质量差异。3位CherryQ在胜平负比例上略优于FP16 Vicuna模型,本文可在arxiv网站上以CC BY 4.0条款许可证获取。
(以上内容均由Ai生成)