神经网络常用优化器

文章目录

神经网络常用优化器
前言
一、预备知识和参数说明
二、随机梯度下降SGD
三、SGDM
三、Adagrad
四、RMSProp
五、Adam

前言

该内容为笔者学习中国大学慕课中北京大学曹健老师Tensorflow笔记所总结
在此之前，笔者观看过吴恩达老师的深度学习和CS231n，其中都对几种优化器进行了讲解，并对几种不同的优化器为什么有效进行了说明，但相比直接曹健老师的讲解更便于记忆

一、预备知识和参数说明

待优化参数 $w$
损失函数 $l oss$
学习率 $l r$
每次迭代一个 $ba t c h$
$t$ 表示当前 $ba t c h$ 迭代的总次数

参数更新的步骤：

计算t时刻损失函数关于当前参数的梯度 $g_t=nabla loss =dfrac{partial text { loss }}{partialleft(w_{t}right)}$
计算t时刻一阶动量 $m_t$ 和二阶动量 $V_t$
计算t时刻下降梯度： $eta_t=lr cdot m_t/sqrt{V_t}$
计算t+1时刻参数： $w_{t+1}=w_t-eta_t=w_t-lr cdot m_t/sqrt{V_t}$

一阶动量：与梯度相关的函数
二阶动量：与梯度平方相关的函数

二、随机梯度下降SGD

一阶动量： $m_t=g_t$ 二阶动量： $V_t=1$

$eta_t=lrcdot m_t/sqrt{V_t}$
$g_t$

$w_{t+1}=w_t-eta_t$
$=w_t-lrcdot m_tsqrt{V_t}$
$w_t-lrcdot g_t$

三、SGDM

在SGD基础上增加了一阶动量
在SGDM中 $m_t$ 表示各时刻梯度方向的指数滑动平均

一阶动量： $m_t=beta cdot m_{t-1}+(1-beta ) cdot g_t$ 二阶动量： $V_t=1$

$eta_t=lrcdot m_t/sqrt{V_t}$
$m_t$
$m_{t-1}+(1-beta ) cdot g_t)$

$w_{t+1}=w_t-eta_t$
$=w_t-lr cdot(beta cdot m_{t-1}+(1-beta ) cdot g_t)$

三、Adagrad

在SGD基础上增加二阶动量
二阶动量是从开始到现在梯度平方的累计和

一阶动量： $m_t=g_t$ 二阶动量： $V_t=sum^t_{tau}g_{tau}^2$

$eta_t=lr cdot m_t/(sqrt{V_t})$
$g_t/(sqrt{sum^t_{tau=1})g_{tau}^2})$

$w_{t+1}=w_t-eta_t$
$=w_t-lr cdot g_t/(sqrt{sum^t_{tau=1})g_{tau}^2})$

四、RMSProp

在SGD基础上增加二阶动量
二阶动量使用指数滑动平均值计算，表征的是过去一段时间的平均值

一阶动量： $m_t=g_t$ 二阶动量： $V_t=beta cdot V_{t-1}+(1-beta)cdot g_2^2$

$eta_t=lr cdot m_t/(sqrt(V_t))$
$g_t/(sqrt{beta cdot V_{t-1}+(1-beta)cdot g_2^2})$

$w_{t+1}=w_t-eta_t$
$=w_t-lr cdot g_t/(sqrt{beta cdot V_{t-1}+(1-beta)cdot g_2^2})$

五、Adam

同时结合SGDM一阶动量和RMWSProp二阶动量

一阶动量： $m_t=beta_1 cdot m_{t-1}+(1-beta_1 )$

修正一阶动量的偏差： $hat{m_t}=dfrac{m_t}{1-beta_1^t}$

二阶动量： $V_t=beta_2 cdot V_{t-1}+(1-beta_2)cdot g_2^2$

修正二阶动量的偏差： $hat{V_t}=dfrac{V_t}{1-beta_2^t}$
$eta_t=lr cdot hat{m_t}/(sqrt{hat{V_t}})$
$dfrac{m_t}{1-beta_1^t}/sqrt{dfrac{V_t}{1-beta_2^t}}$
$w_{t+1}=w_t-eta_t$
$=w_t-lr cdot dfrac{m_t}{1-beta_1^t}/sqrt{dfrac{V_t}{1-beta_2^t}}$