苹果：LLM的超级权重决定模型性能-EW帮帮网

在这里插入图片描述

📖标题：The Super Weight in Large Language Models
🌐来源：arXiv, 2411.07191

🌟摘要

🔸最近的研究显示了一个令人惊讶的结果：一小部分大型语言模型（LLM）参数异常值对模型的质量不成比例地重要。LLM包含数十亿个参数，因此这些小分数，如0.01%，转化为数十万个参数。
🔸在这项工作中，我们提出了一个更令人惊讶的发现：修剪一个参数就可以破坏LLM生成文本的能力——将困惑增加3个数量级，并降低猜测的零样本精度。我们提出了一种无数据的方法来识别这些参数，称为超权重，使用一次前向传递模型。我们还发现，这些超权重会导致相应的罕见和较大的激活异常值，称为超激活。当以高精度保存时，超激活可以改进简单的舍入到最近的量化，从而与最先进的方法竞争。
🔸对于权重量化，我们同样发现，通过保留超权重并裁剪其他权重异常值，舍入到最近的量化可以扩展到比以前考虑的更大的块大小。为了促进对超权重的进一步研究，我们为常见的、公开可用的LLM提供了一个超权重坐标索引

🛎️文章简介

🔸研究问题：在大语言模型（LLM）中，虽然超级权重的数量很少，但它们对模型的性能和质量具有重要的影响。
🔸主要贡献：论文揭示了超级权重和超级激活在LLM中的作用，并提出了一种数据无关的方法来识别和处理这些超权重。

📝重点思路

🔺相关工作

🔸LLM中的异常值：权重异常值在预训练的早期就开始逐渐出现，并导致输出嵌入向量的选定维度出现异常峰值，禁用这些异常值会显着降低训练损失和下游任务性能。
🔸异常值感知量化方法：量化LLM并非易事，因为异常值会增加值的范围，现有量化包括仅权重量化和权重激活量化。

🔺论文方案

🔸识别超级权重：通过检测下投影输入和输出分布中的峰值来定位超级权重，这种方法只需要一个输入提示，而不需要验证数据或用例示例。
🔸机制研究：通过实验移除超级权重并检查其对大规模激活幅度的影响，确认超级权重与大规模激活之间的因果关系。
🔸量化方法：提出了一种新的量化方法，通过保留超级权重和超级激活来提高量化效果，这种方法不需要校准数据，且对硬件友好。
🔸实验设计：评估超级权重对模型质量的影响，包括移除超级权重后的模型表现、超级权重的放大效应以及在不同模型和数据集上的表现。

🔎分析总结

🔸超级权重对模型质量至关重要：移除超级权重会导致模型生成无意义的文本，零样本准确率显著下降，困惑度增加几个数量级。
🔸超级权重通过超级激活影响模型：超级权重不仅直接诱导超级激活，还通过这些激活影响整个模型的输出，特别是在抑制停用词概率方面。
🔸超级权重的位置在指令微调后不变：指令微调不会改变超级权重的位置，这表明超级权重在不同模型中的位置是稳定的。
🔸量化中保留超级权重的重要性：在量化过程中保留超级权重可以显著提高量化模型的质量，尤其是在大块大小的情况下，这种方法比传统的量化方法更有效。