深度学习基础 - 牛顿法

flyfish

关于优化算法

一个是一阶优化算法（first-order optimization algorithms），如梯度下降，使用梯度信息的优化算法。
另一个是二阶最优化算法（second-order optimization algo-rithms）如牛顿法，使用Hessian矩阵的优化算法。

之前介绍了梯度下降方法，此次介绍的是牛顿法
牛顿法还有其他名字
牛顿迭代法
Newton’s method
牛顿-拉夫逊方法
Newton-Raphson method
本文用牛顿法来解决损失函数为 $f(x,y) = x^{2}+9y^{2}$ 的情况。

可视化 $f(x,y) = x^{2}+9y^{2}$

在这里插入图片描述

公式

$\textbf{x}_{t+1} \leftarrow \textbf{x}_{t} - \eta \textbf{H}_{t}^{-1} \textbf{g}_{t}$

其中
$\eta$ 为 Learning Rate，
$\textbf{H}_{t} = \nabla^{2}f(\textbf{x}_{t})$ （称为 Hessian）
$\textbf{g}_{t}=\nabla f(\textbf{x}_{t})$ （称为 Gradient）。

首先画出起始点 $(- 4, 2.5)$ ，如下图
在这里插入图片描述

算 $\textbf{g}$ 和 $\textbf{H}^{-1}$ ，分别是：

$\textbf{g}$ 是
$\textbf{g} = \begin{bmatrix} \dfrac{ \partial f(x,y) }{\partial x} \\[0.3em] \dfrac{\partial f(x,y) } {\partial y} \\[0.3em] \end{bmatrix} = \begin{bmatrix} 2x \\[0.3em] 18y \\[0.3em] \end{bmatrix}$
$\textbf{H}^{-1}$ 是
$\textbf{H}^{-1} = \begin{bmatrix} \dfrac{ \partial^{2} f(x,y) }{\partial x^{2}} & \dfrac{ \partial^{2} f(x,y) }{\partial xy} \\[0.3em] \dfrac{ \partial^{2} f(x,y) } {\partial xy} & \dfrac{ \partial^{2} f(x,y) }{\partial y^{2}} \\[0.3em] \end{bmatrix} ^{-1} = \begin{bmatrix} 2 & 0 \\[0.3em] 0 & 18 \\[0.3em]\end{bmatrix} ^{-1} =\begin{bmatrix} \frac{1}{2} & 0 \\[0.3em] 0 & \frac{1}{18} \\[0.3em] \end{bmatrix}$

假如 $\eta = 0.5$ ，代入起始点 $x_{0},y_{0}) = (-4, 2.5)$ 、 $\textbf{g}$ 和 $\textbf{H}^{-1}$ 到牛顿法的公式： $￥\textbf{x}_{t+1} \leftarrow \textbf{x}_{t} - \eta \textbf{H}_{t}^{-1} \textbf{g}_{t}$
得：

$\begin{bmatrix} x_{1} \\[0.3em] y_{1} \\[0.3em] \end{bmatrix} =\begin{bmatrix} -4 \\[0.3em] 2.5 \\[0.3em] \end{bmatrix} - 0.5 \begin{bmatrix} \frac{1}{2} & 0 \\[0.3em] 0 & \frac{1}{18} \\[0.3em] \end{bmatrix} \begin{bmatrix} 2 \times (-4) \\[0.3em] 18 \times 2.5 \\[0.3em] \end{bmatrix} =\begin{bmatrix} -2 \\[0.3em] 1.25 \\[0.3em] \end{bmatrix}$

更新图上的点， $x_{1},y_{1}) = (-2, 1.25)$ ，如下图：
在这里插入图片描述

再继续，求 $x_{2},y_{2})$ 的值，如下：

$\begin{bmatrix} x_{2} \\[0.3em] y_{2} \\[0.3em] \end{bmatrix} = \begin{bmatrix} -2 \\[0.3em] 1.25 \\[0.3em] \end{bmatrix} - 0.5 \begin{bmatrix} \frac{1}{2} & 0 \\[0.3em] 0 & \frac{1}{18} \\[0.3em] \end{bmatrix} \begin{bmatrix} 2 \times (-2) \\[0.3em] 18 \times 1.25 \\[0.3em] \end{bmatrix} =\begin{bmatrix} -1 \\[0.3em] 0.625 \\[0.3em] \end{bmatrix}$

在这里插入图片描述

如此计算下去结果是
在这里插入图片描述
牛顿法的方向不需要一直折返，可以直接往最小值处走下去，整个过程动画展示
部分动画展示

完整动画展示
在这里插入图片描述

梯度下降法和牛顿法对比

可视化梯度下降
 梯度下降背后的原理
采用梯度下降法的动画展示

在这里插入图片描述

可视化 $f(x,y) = x^{2}+9y^{2}$ 的代码

from PIL import Image 
from matplotlib import pyplot as plt
from mpl_toolkits.mplot3d import Axes3D   
import numpy as np

plt.figure()
ax = plt.axes(projection="3d")

x = np.arange(-5,5,0.1)
y = np.arange(-3,3,0.1)
X,Y = np.meshgrid(x,y)   
Z = X**2+9*Y**2

ax.plot_surface(X,Y,Z,alpha=0.6)
ax.contour(X,Y,Z,zdir="z",offset=-1,cmap="rainbow")
ax.set_xlabel("X") 
ax.set_xlim(-6,6)  
ax.set_ylabel("Y")
ax.set_ylim(-6,6)
ax.set_zlabel("Z")
plt.figure(figsize=(10, 5))
plt.show()

深度学习基础 - 牛顿法

深度学习基础 - 牛顿法

关于优化算法

可视化 $f(x,y) = x^{2}+9y^{2}$

公式

梯度下降法和牛顿法对比

可视化 $f(x,y) = x^{2}+9y^{2}$ 的代码

网站公告

今日签到

热门文章

最新发布

深度学习基础 - 牛顿法

深度学习基础 - 牛顿法

关于优化算法

可视化 f ( x , y ) = x 2 + 9 y 2 f(x,y) = x^{2}+9y^{2} f(x,y)=x2+9y2

公式

梯度下降法和牛顿法对比

可视化 f ( x , y ) = x 2 + 9 y 2 f(x,y) = x^{2}+9y^{2} f(x,y)=x2+9y2的代码

网站公告

今日签到

热门文章

最新发布

可视化 $f(x,y) = x^{2}+9y^{2}$

可视化 $f(x,y) = x^{2}+9y^{2}$ 的代码