激活函数总结(二十九):激活函数补充
1 引言
在前面的文章中已经介绍了介绍了一系列激活函数 (Sigmoid
、Tanh
、ReLU
、Leaky ReLU
、PReLU
、Swish
、ELU
、SELU
、GELU
、Softmax
、Softplus
、Mish
、Maxout
、HardSigmoid
、HardTanh
、Hardswish
、HardShrink
、SoftShrink
、TanhShrink
、RReLU
、CELU
、ReLU6
、GLU
、SwiGLU
、GTU
、Bilinear
、ReGLU
、GEGLU
、Softmin
、Softmax2d
、Logsoftmax
、Identity
、LogSigmoid
、Bent Identity
、Absolute
、Bipolar
、Bipolar Sigmoid
、Sinusoid
、Cosine
、Arcsinh
、Arccosh
、Arctanh
、LeCun Tanh
、TanhExp
、Gaussian
、GCU
、ASU
、SQU
、NCU
、DSU
、SSU
、SReLU
、BReLU
、PELU
、Phish
、RBF
、SQ-RBF
、ISRU
、ISRLU
、SQNL
、PLU
、APL
、Inverse Cubic
、Soft Exponential
、ParametricLinear
、Piecewise Linear Unit
、CLL
、SquaredReLU
、ModReLU
、CosReLU
、SinReLU
、Probit
、Smish
、Multiquadratic
、InvMultiquadratic
、PSmish
、ESwish
)。在这篇文章中,会接着上文提到的众多激活函数继续进行介绍,给大家带来更多不常见的激活函数的介绍。这里放一张激活函数的机理图:
2 激活函数
2.1 Collapsing Linear Unit (CoLU)激活函数
论文链接:Vagerwal, Advait. “Deeper Learning with CoLU Activation.” arXiv preprint arXiv:2112.12078 (2021).
CoLU激活函数是2021
年提出的一种激活函数。CoLU 是一种与 Swish
和 Mish
性质类似
的激活函数。它是平滑
、连续可微
、上无界
、下有界
、非饱和
和非单调
的。根据使用不同激活函数对 CoLU 所做的实验,我们发现 CoLU 在深度神经网络中的表现通常优于其他函数。其数学表达式和数学图像分别如下所示:
f ( x ) = x 1 − x e − ( x + e x ) f(x)=\frac{x}{1-xe^{-(x+e^x)}} f(x)=1−xe−(x+ex)x
优点:
- 一个更大的负区间:与
Swish
和Mish
相比,CoLU激活函数有个更大
的负值区间。其中,CoLU激活函数的区间为:[≈-0.3762, ∞);Swish
的区间为:[≈-0.2784, ∞);Mish
的区间为:[≈-0.3087, ∞)。 - 上无界:由于该函数在上面是
无界
的,因此可以避免饱和
。输出饱和会对训练产生负面影响,并可能因梯度接近零而减慢训练过程。 - 下有界:下方
有界
则有助于对输出进行正则化
。 - 平滑和非单调:激活函数的
平滑性
是可取的,因为可以计算函数的连续导数
。非单调性
有助于保留
一些负值,这有助于神经网络的反向传播
。
缺点:
- 计算复杂度:计算复杂度
更高
,可能
会消耗更长时间。 - 解释性: 给定的激活函数的
物理意义
和行为
可能不如 Mish 激活函数直观
,这可能会影响对模型行为的解释和理解。 - 尚未经过广泛验证:该激活函数尚未经过
广泛
的实验进行验证效果,其实际效果
仍待进一步观察。。。
当前函数在函数表现上与Swish
和 Mish
相似,但是其具体效果有待进一步的验证。。。。
2.2 ShiftedSoftPlus激活函数
背景:原子间作用力与分子能量有关,因此我们可以通过对原子位置进行微分来得到一个能量守恒的作用力模型。Chmiela 等人指出,这样就可以构造出能量守恒力场。由于 SchNet
产生了旋转不变的能量预测,因此力预测在构造上也是旋转等变
的。该模型必须至少有两次可微分
,以允许力损失的梯度下降
。
因此,选择了一个ShiftedSoftPlus
作为整个网络的非线性,以获得一个平滑的势能面
。移位确保了 ssp(0) = 0,并提高了网络的收敛性
。该激活函数与 ELUs 相似,但具有无限阶连续性
。其数学表达式和数学图像分别如下所示:
f ( x ) = l n ( 0.5 + 0.5 e x ) f(x)=ln(0.5+0.5e^{x}) f(x)=ln(0.5+0.5ex)
优点:
- 平滑:使用ShiftedSoftPlus作为激活函数,可以得到一个
平滑的势能面
。 - 无限阶连续性:ShiftedSoftPlus具有
连续可微
性,有助于训练的稳定
性。
缺点:
- 计算成本: 计算
指数
和对数
等操作可能会增加计算成本,特别是在大规模数据和深层网络中。 - 局限性:ShiftedSoftPlus的特性决定了不会再深度学习中得到
广泛
应用。
当前函数很少应用。。。。
3. 总结
到此,使用 激活函数总结(二十九) 已经介绍完毕了!!! 如果有什么疑问欢迎在评论区提出,对于共性问题可能会后续添加到文章介绍中。如果存在没有提及的激活函数
也可以在评论区提出,后续会对其进行添加!!!!
如果觉得这篇文章对你有用,记得点赞、收藏并分享给你的小伙伴们哦😄。