＜深度学习基础＞ Batch Normalization

Batch Normalization批归一化

BN优点

减少了人为选择参数。在某些情况下可以取消dropout和L2正则项参数，或者采取更小的L2正则项约束参数；
减少了对学习率的要求。现在我们可以使用初始很大的学习率或者选择了较小的学习率，算法也能够快速训练收敛；
破坏原来的数据分布，一定程度上缓解过拟合；
减少梯度消失，加快收敛速度，提高训练精度。

步骤

下面给出BN 算法在训练时的过程
输入：上一层输出结果 $X={x_1,x_2,...,x_m}$ ，学习参数 $γ, β$ ；
算法流程：
（1）计算上一层输出数据的均值
$mu_{beta}=frac{1}{m} sum_{i=1}^m x_i$
其中， $m$ 是此次训练样本batch的大小。
（2）计算上一层输出数据的标准差
$sigma_{beta}^2=frac{1}{m} sum_{i=1}^m (x_i-mu_{beta})^2$
（3）归一化处理，得到
$^x_i=frac{x_i+mu_{beta}}{sqrt{sigma_{beta}^2}+epsilon}$
其中 $ϵ$ 是为了避免分母为0 而加进去的接近于0 的很小值；
（4）重构，对经过上面归一化处理得到的数据进行重构，得到
$y_i=gamma ^x_i + beta$
其中， $γ, β$ 为可学习参数。

注：上述是BN训练时的过程，但是当在推理时，往往只是输入一个样本，没有所谓的均值 $mu_{beta}$ 和标准差 $sigma_{beta}^2$ 。此时，均值 $mu_{beta}$ 是计算所有batch的 $mu_{beta}$ 值的平均值得到，标准差 $sigma_{beta}^2$ 采用每个batch的 $sigma_{beta}^2$ 的无偏估计得到。