Relook：softmax函数-EW帮帮网

1. 计算 $Z=W^TX+\boldsymbol{b}$

定义变量

定义 $\in \mathbb{R}^{D_{\text{in}} \times N}, W \in \mathbb{R}^{D_{\text{in}} \times D_{\text{out}}}, b \in \mathbb{R}^{D_{\text{out}}}$ ，则

$X=\begin{bmatrix} x_{11} & x_{12} & \cdots & x_{1N} \\ x_{21} & x_{22} & \cdots & x_{2N} \\ \vdots & \vdots & \vdots & \vdots \\ x_{D_{in}1} & x_{D_{in}2} & \cdots & x_{D_{in}N} \\ \end{bmatrix}= \begin{bmatrix} \boldsymbol{x}_1 \boldsymbol \ \boldsymbol{x}_2 \cdots \boldsymbol{x}_N\\ \end{bmatrix}$

式中， $\boldsymbol{x_i}=[x_{1i}, x_{2i}, \cdots, x_{D_{in}i}]^T$ ，每一列为一个样本，且样本是用列向量表示。

$\begin{bmatrix} w_{11} & w_{12} & \cdots & w_{1D_{out}} \\ w_{21} & w_{22} & \cdots & w_{2D_{out}} \\ \vdots & \vdots & \ddots & \vdots \\ w_{D_{in}1} & w_{D_{in}2} & \cdots & w_{D_{in}D_{out}} \\ \end{bmatrix}= \begin{bmatrix} \boldsymbol{w}_1 \boldsymbol \ \boldsymbol{w}_2 \cdots \boldsymbol{w}_{D_{out}} \end{bmatrix}$

式中， $\boldsymbol{w}_i=[w_{1i}, w_{2i}, \cdots, w_{D_{in}i}]^T$ ，每一列为一个权重向量。

计算权重转置 $W^T$

$W^T = \begin{bmatrix} w_{11} & w_{21} & \cdots & w_{D_{in}1} \\ w_{12} & w_{22} & \cdots & w_{D_{in}2} \\ \vdots & \vdots & \ddots & \vdots \\ w_{1D_{out}} & w_{2D_{out}} & \cdots & w_{D_{in}D_{out}} \\ \end{bmatrix}= \begin{bmatrix} \boldsymbol{w}_1^T \\ \boldsymbol{w}_2^T \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \\ \end{bmatrix}$

注意，由于 $\boldsymbol{w}_i$ 是一个列向量，则对应的转置即为行向量。

计算线性变换 $W^TX$

$W^T X = \begin{bmatrix} \boldsymbol{w}_1^T \\ \boldsymbol{w}_2^T \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \\ \end{bmatrix} \begin{bmatrix} \boldsymbol{x}_1 \boldsymbol \ \boldsymbol{x}_2 \cdots \boldsymbol{x}_N\\ \end{bmatrix}= \begin{bmatrix} \boldsymbol{w}_1^T \boldsymbol{x}_1 & \boldsymbol{w}_1^T \boldsymbol{x}_2 & \cdots & \boldsymbol{w}_1^T \boldsymbol{x}_N \\ \boldsymbol{w}_2^T \boldsymbol{x}_1 & \boldsymbol{w}_2^T \boldsymbol{x}_2 & \cdots & \boldsymbol{w}_2^T \boldsymbol{x}_N \\ \vdots & \vdots & \ddots & \vdots \\ \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_1 & \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_2 & \cdots & \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_N \\ \end{bmatrix}$

为了更加直观的观察，采用 $A[x_1\ x_2\ \cdots\ x_n]=[Ax_1\ Ax_2\ \cdots\ Ax_n]$ 这种矩阵乘法的表达形式，则上式可以写成：
$W^T X = \begin{bmatrix} \begin{bmatrix} \boldsymbol{w}_1^T \\ \boldsymbol{w}_2^T \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \\ \end{bmatrix} \boldsymbol{x}_1 & \begin{bmatrix} \boldsymbol{w}_1^T \\ \boldsymbol{w}_2^T \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \\ \end{bmatrix} \boldsymbol{x}_2 & \cdots & \begin{bmatrix} \boldsymbol{w}_1^T \\ \boldsymbol{w}_2^T \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \\ \end{bmatrix} \boldsymbol{x}_N \end{bmatrix}$

添加偏置 $\boldsymbol{b}$ （广播机制）

$\begin{align} W^T X + b &= \begin{bmatrix} \boldsymbol{w}_1^T \boldsymbol{x}_1 & \boldsymbol{w}_1^T \boldsymbol{x}_2 & \cdots & \boldsymbol{w}_1^T \boldsymbol{x}_N \\ \boldsymbol{w}_2^T \boldsymbol{x}_1 & \boldsymbol{w}_2^T \boldsymbol{x}_2 & \cdots & \boldsymbol{w}_2^T \boldsymbol{x}_N \\ \vdots & \vdots & \ddots & \vdots \\ \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_1 & \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_2 & \cdots & \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_N \\ \end{bmatrix}+ \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_{D_{out}} \\ \end{bmatrix} \\&= \begin{bmatrix} \boldsymbol{w}_1^T \boldsymbol{x}_1 + b_1 & \boldsymbol{w}_1^T \boldsymbol{x}_2 + b_1 & \cdots & \boldsymbol{w}_1^T \boldsymbol{x}_N + b_1 \\ \boldsymbol{w}_2^T \boldsymbol{x}_1 + b_2 & \boldsymbol{w}_2^T \boldsymbol{x}_2 + b_2 & \cdots & \boldsymbol{w}_2^T \boldsymbol{x}_N + b_2 \\ \vdots & \vdots & \ddots & \vdots \\ \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_1 + b_{D_{out}} & \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_2 + b_{D_{out}} & \cdots & \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_N + b_{D_{out}} \\ \end{bmatrix}_{D_{out}\times N} \end{align}$

输出矩阵 $Z$

$W^T X + b = \begin{bmatrix} z_{11} & z_{12} & \cdots & z_{1N} \\ z_{21} & z_{22} & \cdots & z_{2N} \\ \vdots & \vdots & \ddots & \vdots \\ z_{D_{out}1} & z_{D_{out}2} & \cdots & z_{D_{out}N} \\ \end{bmatrix}_{D_{out}\times N}$

因此，对于任意一列样本 $\boldsymbol{x}_i$ ，对应的输出为

$\boldsymbol{z}_i = \begin{bmatrix} \boldsymbol{w}_1^T \boldsymbol{x}_i + b_1 \\ \boldsymbol{w}_2^T \boldsymbol{x}_i + b_2 \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \boldsymbol{x}_i + b_{D_{out}} \\ \end{bmatrix}= \begin{bmatrix} \boldsymbol{w}_1^T \\ \boldsymbol{w}_2^T \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \\ \end{bmatrix} \boldsymbol{x}_i + \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_{D_{out}} \\ \end{bmatrix}$

2. 点积(内积/标量积)定义

点积（dot product）、标量积（scalar product）、内积（inner product）都是同一种意义，叫法不同。其中，点积是基于代数运行，两个长度相等的数列对应位置相乘，然后求和。标量积，是因为运算的结果为一个数，即标量值，所以称标量积。从几何角度出发，在欧几里空间中，两个向量的欧几里得模长与它们夹角余弦值的乘积，称为内积。

坐标定义

对于两个长度相等的列向量 $\boldsymbol{a} = [a_1, a_2, \cdots, a_n]^T,\boldsymbol{b} = [b_1, b_2, \cdots, b_n]^T$ ，它们的点积定义如下：
$\boldsymbol{a} \cdot \boldsymbol{b} = \sum_{i = 1}^{n} a_i b_i = a_1b_1 + a_2b_2 + \cdots + a_nb_n$
同样地，可以采用矩阵乘法的形式进行运算：

$\begin{align} \boldsymbol{a} \cdot \boldsymbol{b} &= \boldsymbol{a}^T\boldsymbol{b}= [a_1 \ a_2\ \cdots a_n] \times \begin{bmatrix} b_1 \\ b_2 \\ \vdots \\ b_n \\ \end{bmatrix}=a_1b_1 + a_2b_2 + \cdots + a_nb_n \end{align}$

几何定义

在欧几里得空间中，欧几里得向量是一种兼具大小（模长）和方向的几何对象，两个欧几里得向量的点积定义为：
$\boldsymbol{a} \cdot \boldsymbol{b} = ||\boldsymbol{a}||\ ||\boldsymbol{b}||\cos(\theta)$

3. 重新思考Softmax

这里忽略偏置 $\boldsymbol{b}$ ，对于任意一个样本 $\boldsymbol{x}$ ，全连接的分类输出为
$\boldsymbol{z} = \begin{bmatrix} \boldsymbol{w}_1^T \boldsymbol{x} \\ \boldsymbol{w}_2^T \boldsymbol{x} \\ \vdots \\ \boldsymbol{w}_{D_{out}}^T \boldsymbol{x} \\ \end{bmatrix}$
进一步，假设是3分类问题，Fc的输出维度 $D_{out}=3$ ，则
$\boldsymbol{z} = \begin{bmatrix} \boldsymbol{w}_1^T \boldsymbol{x} \\ \boldsymbol{w}_2^T \boldsymbol{x} \\ \boldsymbol{w}_3^T \boldsymbol{x} \\ \end{bmatrix}$
根据前面条件可知， $\boldsymbol{x}$ 是列向量， $\boldsymbol{w}_i$ 也是列向量，则
$\boldsymbol{w}_i^T \boldsymbol{x} =||\boldsymbol{w}_i^T||\ ||\boldsymbol{x}||\cos(\theta_i)$
因此，可以表达为下图内容所示。基于三分类的问题，若某个类别的softmax输出概率最大，则认为输入样本 $\boldsymbol{x}$ 为该类别。要使某个某个的概率最大，则必须使得内积的结果最大。可以看出，内积的大写与两个变量有关，即 $\boldsymbol{w}_i,\theta_i$ 。

在这里插入图片描述

当输入样本 $\boldsymbol{x}$ 与某个类别权重 $\boldsymbol{w}_i$ 的夹角越小，且该类别权重的模长越长，则样本 $\boldsymbol{x}$ 被预测为该类别的概率就越大。

4. 总结

上述相关对softmax进行魔改的工作相当多，可以参考人脸识别领域的相关改进softmax loss工作，如：

[1612.02295] Large-Margin Softmax Loss for Convolutional Neural Networks
[1704.08063] SphereFace: Deep Hypersphere Embedding for Face Recognition
[1801.09414] CosFace: Large Margin Cosine Loss for Deep Face Recognition
[1801.05599] Additive Margin Softmax for Face Verification
ArcFace: Additive Angular Margin Loss for Deep Face Recognition

个人感觉，改修的各种版本softmax loss具有明确的可解释性，在一定程度上可能会提升收敛速度，但是准确率的提升可能不会太明显。（目前还没在代码中体验）

Relook：softmax函数

1. 计算 $Z=W^TX+\boldsymbol{b}$

定义变量

计算权重转置 $W^T$

计算线性变换 $W^TX$

添加偏置 $\boldsymbol{b}$ （广播机制）

输出矩阵 $Z$

2. 点积(内积/标量积)定义

坐标定义

几何定义

3. 重新思考Softmax

4. 总结

网站公告

今日签到

热门文章

最新发布

Relook：softmax函数

1. 计算 Z = W T X + b Z=W^TX+\boldsymbol{b} Z=WTX+b

定义变量

计算权重转置 W T W^T WT

计算线性变换 W T X W^TX WTX

添加偏置 b \boldsymbol{b} b（广播机制）

输出矩阵 Z Z Z

2. 点积(内积/标量积)定义

坐标定义

几何定义

3. 重新思考Softmax

4. 总结

网站公告

今日签到

热门文章

最新发布

1. 计算 $Z=W^TX+\boldsymbol{b}$

计算权重转置 $W^T$

计算线性变换 $W^TX$

添加偏置 $\boldsymbol{b}$ （广播机制）

输出矩阵 $Z$