苹果:LLM的超级权重决定模型性能

发布于:2024-12-07 ⋅ 阅读:(150) ⋅ 点赞:(0)

在这里插入图片描述

📖标题:The Super Weight in Large Language Models
🌐来源:arXiv, 2411.07191

🌟摘要

🔸最近的研究显示了一个令人惊讶的结果:一小部分大型语言模型(LLM)参数异常值对模型的质量不成比例地重要。LLM包含数十亿个参数,因此这些小分数,如0.01%,转化为数十万个参数。
🔸在这项工作中,我们提出了一个更令人惊讶的发现:修剪一个参数就可以破坏LLM生成文本的能力——将困惑增加3个数量级,并降低猜测的零样本精度。我们提出了一种无数据的方法来识别这些参数,称为超权重,使用一次前向传递模型。我们还发现,这些超权重会导致相应的罕见和较大的激活异常值,称为超激活。当以高精度保存时,超激活可以改进简单的舍入到最近的量化,从而与最先进的方法竞争。
🔸对于权重量化,我们同样发现,通过保留超权重并裁剪其他权重异常值,舍入到最近的量化可以扩展到比以前考虑的更大的块大小。为了促进对超权重的进一步研究,我们为常见的、公开可用的LLM提供了一个超权重坐标索引

🛎️文章简介

🔸研究问题:在大语言模型(LLM)中,虽然超级权重的数量很少,但它们对模型的性能和质量具有重要的影响。
🔸主要贡献:论文揭示了超级权重和超级激活在LLM中的作用,并提出了一种数据无关的方法来识别和处理这些超权重。

📝重点思路

🔺相关工作

🔸LLM中的异常值:权重异常值在预训练的早期就开始逐渐出现,并导致输出嵌入向量的选定维度出现异常峰值,禁用这些异常值会显着降低训练损失和下游任务性能。
🔸异常值感知量化方法:量化LLM并非易事,因为异常值会增加值的范围,现有量化包括仅权重量化和权重激活量化。

🔺论文方案

🔸识别超级权重:通过检测下投影输入和输出分布中的峰值来定位超级权重,这种方法只需要一个输入提示,而不需要验证数据或用例示例。
🔸机制研究:通过实验移除超级权重并检查其对大规模激活幅度的影响,确认超级权重与大规模激活之间的因果关系。
🔸量化方法:提出了一种新的量化方法,通过保留超级权重和超级激活来提高量化效果,这种方法不需要校准数据,且对硬件友好。
🔸实验设计:评估超级权重对模型质量的影响,包括移除超级权重后的模型表现、超级权重的放大效应以及在不同模型和数据集上的表现。

🔎分析总结

🔸超级权重对模型质量至关重要:移除超级权重会导致模型生成无意义的文本,零样本准确率显著下降,困惑度增加几个数量级。
🔸超级权重通过超级激活影响模型:超级权重不仅直接诱导超级激活,还通过这些激活影响整个模型的输出,特别是在抑制停用词概率方面。
🔸超级权重的位置在指令微调后不变:指令微调不会改变超级权重的位置,这表明超级权重在不同模型中的位置是稳定的。
🔸量化中保留超级权重的重要性:在量化过程中保留超级权重可以显著提高量化模型的质量,尤其是在大块大小的情况下,这种方法比传统的量化方法更有效。

💡个人观点

论文的核心是发现了超级权重和超级激活的关键作用,体现出了模型的稀疏性和剪枝的必要?

🧩附录

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述