1.剪枝

1.1 剪枝分类

在这里插入图片描述

在这里插入图片描述

CONV-BN-Relu可以说是当前深度学习模型中比较常见的元素。BN层的scale系数是和conv输出特征图的channel是一一对应的。此论文使用scale系数绝对值的大小，对特征图进行剪枝。

在这里插入图片描述

剪枝原理、流程如下图：
在这里插入图片描述

yolov3是常用的object detection模型之一。

在这里插入图片描述

使用Network Slimming对yolov3进行剪枝(剪枝比例可调)后，params及flops都有明显的下降：

在这里插入图片描述

Hinton论文Distilling the Knowledge in a Neural Network可以说是知识蒸馏奠基性的文章。

知识蒸馏由teacher net以及student net组成，teacher net规模较大，student net规模小。

其要旨是teacher net输出结果中的重要信息，如对于一个分类模型，不仅仅是one-hot编码的分类结果，其softmax结果给出的信息(有些文章中称为dark information)同样很重要。

在这里插入图片描述
对于softmax函数，T值越大，对应于结果值越softer;

在这里插入图片描述
有些文章中给出的损失函数分别结合了student net输出结果与gt label(即hard label)、Teacher net的soft label的交叉熵。

可以为两部分赋予不同的系数 $\alpha$ 、 $\beta$ ，来表征模型对gt以及Teach net输出的结果的信任/重视程度。

在这里插入图片描述

在这里插入图片描述

图(a)说明，随着T越高，softmax结果越来越softer；T=20时，肉眼已经看不清楚分类结果；

图(b)说明，4个随机图片样本，未经过知识蒸馏学习的student net输出结果是错的，而经过知识蒸馏，学习到Teacher net输出的dark information后，student net给出了正确的分类结果。