AI 压缩的未来:更智能的量化策略
快速阅读: 据《黑客 Noon》称,本文研究了大型语言模型中的参数异质性现象,发现少量关键参数对模型性能至关重要。基于此,作者提出了新的基于影响的参数选择标准CherryQ,并使用QAT框架优化模型。实验结果显示,CherryQ在多个模型上优于常用标准,特别是在LLaMA2和Vicuna1.5上取得了更好的性能。该方法为在资源受限环境中高效部署大型语言模型提供了新途径。
(注:文中英文已翻译成中文)
作者:(1)崔婉云,上海财经大学,共同第一作者;(2)王倩乐,上海财经大学,共同第一作者。
**摘要及第1章 引言**
**2 相关工作**
**3 量化参数对模型性能的影响 & 4. 统一混合精度训练**
**5 大型语言模型中参数异质性的普遍性**
**6 量化实验**
6.1 实现细节
6.2 基础大型语言模型量化的影响
6.3 聊天大型语言模型量化的影响
6.4 参数选择标准比较、结论与参考文献
为了评估我们提出的基于影响的参数选择标准的有效性,我们进行了实验,将其与常用的基于幅度的标准[18]进行比较。表5展示了使用这两种标准进行樱桃参数选择时,LLaMA2-7B-3bit和LLaMA2-13B-3bit模型的困惑度。
从结果可以看出,基于影响的标准在所有设置下都始终优于基于幅度的标准。这些结果表明,我们提出的基于影响的标准比基于幅度的标准更能有效衡量参数的重要性。这些影响在量化过程中识别并保留了最重要的参数。我们认为这证明了参数影响的异质性相对于参数幅度,正如我们在第5节中所强调的。本节中的广泛实验结果清楚地展示了CherryQ相较于现有量化方法的优势。通过有效地识别关键的樱桃参数并统一混合精度参数优化,CherryQ在基础大型语言模型和聊天大型语言模型上均实现了最佳性能。
**7 结论**
本文研究了大型语言模型中的参数异质性现象。我们在LLaMA2、Mistral、Gemma和Vicuna模型上的实验一致表明,一小部分参数在保持模型性能方面起着至关重要的作用,而大多数参数可以量化为超低精度而不会显著降低性能。这一发现突显了考虑参数重要性异质性的高效模型压缩和量化技术的潜力。受此观察的启发,我们提出了一种新的基于影响的参数选择标准,用于量化过程。我们的方法在量化过程中有效地识别并保留了最重要的樱桃参数。我们使用QAT框架来统一优化樱桃参数和普通参数。广泛的实验表明,CherryQ优于常用的基于幅度的标准,取得了显著更低的困惑度得分和更好的下游性能。这种异质性和提出的方案为在资源受限环境中更高效地部署大型语言模型铺平了道路。
**A 聊天大型语言模型量化对MMLU的影响**
我们进一步通过量化Vicuna1.5模型来评估CherryQ在MMLU基准上的性能。如表6所示,CherryQ在几乎所有类别中都优于QAT和GPTQ的平均准确率。
**参考文献**
[12] 阿尔伯特·Q·姜,亚历山大·萨布拉伊罗尔斯,阿瑟·曼什,克里斯·班福德,德文德拉·辛格·查普洛特,迭戈·德拉斯·卡萨斯,弗洛里安·布雷桑德,吉安娜·伦耶尔,纪尧姆·兰普勒,露西尔·索尼耶。Mistral 7b。arXiv预印本 arXiv:2310.06825,2023年。
[13] 金秀英,科尔曼·胡珀,阿米尔·戈拉米,甄冬,李秀玉,沈圣,迈克尔·W·马洪尼,库尔特·凯泽。Squeezellm:密集和稀疏量化。arXiv预印本 arXiv:2306.07629,2023年。
[14] 拉古拉曼·克里希纳穆提。深度卷积网络的量化以实现高效的推理:白皮书。arXiv预印本 arXiv:1806.08342,2018年。
[15] 杨·乐昆,约翰·登克,莎拉·索拉。最优脑损伤。神经信息处理系统进展,第2期,1989年。
[16] 李宇航,龚瑞浩,谭旭,杨阳,胡鹏,张琦,余凤伟,王巍,顾诗。Brecq:通过块重构推动后训练量化极限。国际学习表示会议论文集,2020年。
[17] 林骥明,唐佳明,唐浩天,杨尚,党兴宇,韩松。Awq:用于LLM压缩和加速的激活感知权重量化。arXiv预印本 arXiv:2306.00978,2023年。
[18] 刘则春,巴拉斯·奥古兹,赵长生,厄尼·张,皮埃尔·斯托克,亚沙尔·梅哈德,施洋洋,拉古拉曼·克里希纳穆提,维卡斯·钱德拉。Llm-qat:无数据量化感知训练大型语言模型。arXiv预印本 arXiv:2305.17888,2023年。
[19] 斯蒂芬·梅里蒂,邢彩明,詹姆斯·布拉德伯里,理查德·索彻。指针哨兵混合模型。arXiv预印本 arXiv:1609.07843,2016年。
[20] 科林·拉菲尔,诺姆·沙泽尔,亚当·罗伯茨,凯瑟琳·李,沙兰·纳朗,迈克尔·马特纳,闫琦周,李威,彼得·J·刘。用统一的文本到文本转换器探索迁移学习的极限。机器学习研究杂志,21(140):1-67,2020年。
[21] 邵文琦,陈梦昭,张照阳,徐鹏,赵丽蕊,李志谦,张凯鹏,高鹏,乔宇,骆平。Omniquant:全方位校准的大语言模型量化。第十二届国际学习表示会议论文集,2023年。
[22] Gemma团队,托马斯·梅斯纳德,卡西迪·哈丁,罗伯特·达达希,苏里亚·布帕蒂拉朱,夏蕾娅·帕塔克,劳伦特·西弗,莫甘·里维埃,米希尔·桑贾伊·卡莱,朱丽叶·洛夫。Gemma:基于Gemini研究和技术的开放模型。arXiv预印本 arXiv:2403.08295,2024年。
[23] 胡戈·图弗隆,路易斯·马丁,凯文·斯通,彼得·阿尔伯特,阿姆贾德·阿尔玛海尔,雅斯敏·巴巴伊,尼古拉·巴什利科夫,索米亚·巴特拉,普拉吉瓦尔·巴尔加瓦,舒鲁蒂·博萨勒。Llama 2:开放基础和微调聊天模型。arXiv预印本 arXiv:2307.09288,2023年。
[24] 魏秀英,张云晨,张向国,龚瑞浩,张尚航,张琦,余凤伟,刘向龙。离群抑制:低比特变换语言模型的极限推动。神经信息处理系统进展,第35期:17402-17414,2022年。
[25] 肖广轩,林骥明,米凯尔·塞内克,吴浩,朱利安·德穆斯,韩松。SmoothQuant:准确且高效的大型语言模型后训练量化。国际机器学习会议论文集,第38087-38099页。PMLR出版社,2023年。
[26] 郑连民,蒋伟林,盛颖,庄思源,吴章浩,庄永浩,林子,李竹涵,李大成,艾瑞克·辛格。使用MT-Bench和Chatbot Arena评判LLM作为裁判。神经信息处理系统进展,第36期,2024年。
(以上内容均由Ai生成)