AI 压缩的未来:更智能的量化策略

发布时间:2025年3月7日    来源:szf
AI 压缩的未来:更智能的量化策略

快速阅读: 据《黑客 Noon》称,本文研究了大型语言模型中的参数异质性现象,发现少量关键参数对模型性能至关重要。基于此,作者提出了新的基于影响的参数选择标准CherryQ,并使用QAT框架优化模型。实验结果显示,CherryQ在多个模型上优于常用标准,特别是在LLaMA2和Vicuna1.5上取得了更好的性能。该方法为在资源受限环境中高效部署大型语言模型提供了新途径。

(注:文中英文已翻译成中文)

作者:(1)崔婉云,上海财经大学,共同第一作者;(2)王倩乐,上海财经大学,共同第一作者。

**摘要及第1章 引言**

**2 相关工作**

**3 量化参数对模型性能的影响 & 4. 统一混合精度训练**

**5 大型语言模型中参数异质性的普遍性**

**6 量化实验**

6.1 实现细节

6.2 基础大型语言模型量化的影响

6.3 聊天大型语言模型量化的影响

6.4 参数选择标准比较、结论与参考文献

为了评估我们提出的基于影响的参数选择标准的有效性,我们进行了实验,将其与常用的基于幅度的标准[18]进行比较。表5展示了使用这两种标准进行樱桃参数选择时,LLaMA2-7B-3bit和LLaMA2-13B-3bit模型的困惑度。

从结果可以看出,基于影响的标准在所有设置下都始终优于基于幅度的标准。这些结果表明,我们提出的基于影响的标准比基于幅度的标准更能有效衡量参数的重要性。这些影响在量化过程中识别并保留了最重要的参数。我们认为这证明了参数影响的异质性相对于参数幅度,正如我们在第5节中所强调的。本节中的广泛实验结果清楚地展示了CherryQ相较于现有量化方法的优势。通过有效地识别关键的樱桃参数并统一混合精度参数优化,CherryQ在基础大型语言模型和聊天大型语言模型上均实现了最佳性能。

**7 结论**

本文研究了大型语言模型中的参数异质性现象。我们在LLaMA2、Mistral、Gemma和Vicuna模型上的实验一致表明,一小部分参数在保持模型性能方面起着至关重要的作用,而大多数参数可以量化为超低精度而不会显著降低性能。这一发现突显了考虑参数重要性异质性的高效模型压缩和量化技术的潜力。受此观察的启发,我们提出了一种新的基于影响的参数选择标准,用于量化过程。我们的方法在量化过程中有效地识别并保留了最重要的樱桃参数。我们使用QAT框架来统一优化樱桃参数和普通参数。广泛的实验表明,CherryQ优于常用的基于幅度的标准,取得了显著更低的困惑度得分和更好的下游性能。这种异质性和提出的方案为在资源受限环境中更高效地部署大型语言模型铺平了道路。

**A 聊天大型语言模型量化对MMLU的影响**

我们进一步通过量化Vicuna1.5模型来评估CherryQ在MMLU基准上的性能。如表6所示,CherryQ在几乎所有类别中都优于QAT和GPTQ的平均准确率。

**参考文献**

[12] 阿尔伯特·Q·姜,亚历山大·萨布拉伊罗尔斯,阿瑟·曼什,克里斯·班福德,德文德拉·辛格·查普洛特,迭戈·德拉斯·卡萨斯,弗洛里安·布雷桑德,吉安娜·伦耶尔,纪尧姆·兰普勒,露西尔·索尼耶。Mistral 7b。arXiv预印本 arXiv:2310.06825,2023年。

[13] 金秀英,科尔曼·胡珀,阿米尔·戈拉米,甄冬,李秀玉,沈圣,迈克尔·W·马洪尼,库尔特·凯泽。Squeezellm:密集和稀疏量化。arXiv预印本 arXiv:2306.07629,2023年。

[14] 拉古拉曼·克里希纳穆提。深度卷积网络的量化以实现高效的推理:白皮书。arXiv预印本 arXiv:1806.08342,2018年。

[15] 杨·乐昆,约翰·登克,莎拉·索拉。最优脑损伤。神经信息处理系统进展,第2期,1989年。

[16] 李宇航,龚瑞浩,谭旭,杨阳,胡鹏,张琦,余凤伟,王巍,顾诗。Brecq:通过块重构推动后训练量化极限。国际学习表示会议论文集,2020年。

[17] 林骥明,唐佳明,唐浩天,杨尚,党兴宇,韩松。Awq:用于LLM压缩和加速的激活感知权重量化。arXiv预印本 arXiv:2306.00978,2023年。

[18] 刘则春,巴拉斯·奥古兹,赵长生,厄尼·张,皮埃尔·斯托克,亚沙尔·梅哈德,施洋洋,拉古拉曼·克里希纳穆提,维卡斯·钱德拉。Llm-qat:无数据量化感知训练大型语言模型。arXiv预印本 arXiv:2305.17888,2023年。

[19] 斯蒂芬·梅里蒂,邢彩明,詹姆斯·布拉德伯里,理查德·索彻。指针哨兵混合模型。arXiv预印本 arXiv:1609.07843,2016年。

[20] 科林·拉菲尔,诺姆·沙泽尔,亚当·罗伯茨,凯瑟琳·李,沙兰·纳朗,迈克尔·马特纳,闫琦周,李威,彼得·J·刘。用统一的文本到文本转换器探索迁移学习的极限。机器学习研究杂志,21(140):1-67,2020年。

[21] 邵文琦,陈梦昭,张照阳,徐鹏,赵丽蕊,李志谦,张凯鹏,高鹏,乔宇,骆平。Omniquant:全方位校准的大语言模型量化。第十二届国际学习表示会议论文集,2023年。

[22] Gemma团队,托马斯·梅斯纳德,卡西迪·哈丁,罗伯特·达达希,苏里亚·布帕蒂拉朱,夏蕾娅·帕塔克,劳伦特·西弗,莫甘·里维埃,米希尔·桑贾伊·卡莱,朱丽叶·洛夫。Gemma:基于Gemini研究和技术的开放模型。arXiv预印本 arXiv:2403.08295,2024年。

[23] 胡戈·图弗隆,路易斯·马丁,凯文·斯通,彼得·阿尔伯特,阿姆贾德·阿尔玛海尔,雅斯敏·巴巴伊,尼古拉·巴什利科夫,索米亚·巴特拉,普拉吉瓦尔·巴尔加瓦,舒鲁蒂·博萨勒。Llama 2:开放基础和微调聊天模型。arXiv预印本 arXiv:2307.09288,2023年。

[24] 魏秀英,张云晨,张向国,龚瑞浩,张尚航,张琦,余凤伟,刘向龙。离群抑制:低比特变换语言模型的极限推动。神经信息处理系统进展,第35期:17402-17414,2022年。

[25] 肖广轩,林骥明,米凯尔·塞内克,吴浩,朱利安·德穆斯,韩松。SmoothQuant:准确且高效的大型语言模型后训练量化。国际机器学习会议论文集,第38087-38099页。PMLR出版社,2023年。

[26] 郑连民,蒋伟林,盛颖,庄思源,吴章浩,庄永浩,林子,李竹涵,李大成,艾瑞克·辛格。使用MT-Bench和Chatbot Arena评判LLM作为裁判。神经信息处理系统进展,第36期,2024年。

(以上内容均由Ai生成)

你可能还想读

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

本周科技大事件:谷歌发布Pixel 10,Gamescom揭晓重磅游戏

快速阅读: 谷歌推出Pixel 10手机及Pixel Watch 4,新增卫星紧急通讯、可更换电池和屏幕、抬手通话等功能,屏幕亮度达3000尼特,还将与斯蒂芬·库里合作推出AI健康和健身教练服务。 谷歌本周在“由谷歌制造”活动中推出了Pix […]

发布时间:2025年8月23日
SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

SK海力士凭借HBM激增首次超越三星,领跑全球内存市场

快速阅读: 据《《韩国先驱报》》称,7月20日,SK海力士首登全球内存芯片市场榜首,受益于AI产品和HBM芯片领先地位。其季度利润达9.2万亿韩元,远超三星。 据韩联社报道,7月20日,韩国京畿道伊川,SK海力士首次登上全球内存芯片市场榜首 […]

发布时间:2025年8月1日
STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

STAN 从谷歌、万代南梦宫和其他公司筹集了 850 万美元

快速阅读: 据《印度教业务线》称,STAN获850万美元融资,由万代南梦宫等机构投资。计划拓展印度市场,加强AI功能与创作者工具。平台用户超2500万,专注移动端社交游戏。 记者获悉,8月1日,社交游戏平台STAN宣布完成850万美元的新一 […]

发布时间:2025年8月1日
“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

“这改变了一切”:谷歌的人工智能模式迫使品牌重新考虑搜索策略

快速阅读: 据《营销周》称,谷歌推出AI搜索模式,减少外部链接,提升对话式回答。品牌需调整策略,重视内容质量与品牌权威。此变化影响营销方式,竞争加剧。 据谷歌官方消息,7月29日,谷歌在英国推出了基于人工智能的搜索功能AI模式,此前该功能已 […]

发布时间:2025年8月1日
在 Android 上用更智能的应用程序替换 Google Assistant

在 Android 上用更智能的应用程序替换 Google Assistant

快速阅读: 据《电话竞技场》称,据报道,用户可从Google Play下载Meta AI应用,安装后需检查版本是否为230.0.0.36.164或更高。操作方法:进入设置,选择应用,查看Meta AI信息页底部的版本号。 据媒体报道,用户现 […]

发布时间:2025年8月1日
Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

Xero 的英国董事总经理回击人工智能正在抢走会计工作的说法

快速阅读: 据《UKTN(英国科技新闻)》称,英国科技媒体UKTN报道,Xero英国总经理凯特·海沃德表示,会计行业无需过度担忧AI自动化。尽管四大事务所裁员,但Xero仍持续投资AI技术,提升效率与服务质量。 据英国科技新闻网站UKTN报 […]

发布时间:2025年8月1日
Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

Reddit 计划在搜索引擎市场大力推动人工智能与谷歌竞争:报告

快速阅读: 据《商业标准》称,Reddit CEO表示,公司正将平台转型为搜索引擎,整合AI功能,提升用户体验。Reddit Answers用户已超600万,计划全球推广。 据《The Verge》报道,7月11日,Reddit首席执行官史 […]

发布时间:2025年8月1日
Meta 超出预期,为“个人超级智能”做准备

Meta 超出预期,为“个人超级智能”做准备

快速阅读: 据《RCR无线》称,Meta二季度营收475.2亿美元,净利润183亿美元。CEO扎克伯格称将打造个人超级智能,但数据中心扩容遇挑战。公司计划2025年支出达1140-1180亿美元。 据媒体报道,7月25日,美国加州,社交媒体 […]

发布时间:2025年8月1日