梯度消失和梯度爆炸理解

神经网络在训练时最后会得到误差loss,神经网络会根据误差反向学习:

  当反向学习的权重W < 1时,loss * W会逐级减小,甚至接近0。 这就是梯度消失。

  当反向学习的权重W > 1时,loss * W会逐级增大,最后变得非常大。这就是梯度爆炸。

loss1 loss2 loss3 loss4 loss5              lossn      loss

<<   ------------------------------------------------------------------------------------------------ ^

W1 W2 W3 W4   W5  ......            Wn        |

------------------------------------------------------------------------------------------ >>  loss  |

t1      t2  t3  t4  t5  ......            tn