Neural Networks for Machine Learning by Geoffrey Hinton (三)

Neural Networks for Machine Learning by Geoffrey Hinton (3)

训练感知机的方法并不能用以训练隐含层

训练感知机的方式是每次直接修正权重，最终得到满足所有凸锥里的权重。可行解的平均一定还是可行解。
对多层神经网络而言，2个可行解的平均并不一定是可行解。
They should never have been called multi-layer perceptrons.

为何不解析求解神经网络？

我们希望了解神经网络具体工作方式。
我们需要能够扩展到深层神经网络的方法。

online delta-rule 与感知机 learning rule 的区别与联系

感知机 learning rule 中，我们通过输入向量直接改变权重向量。

然而我们只能在出现错误时才能够调整权重。
online delta-rule 中，权重的修正量还带有残差和学习率作为系数。

$Δ w i = - ε \partial E \partial w i = \sum n ε x n i (t n - y n)$ $\Delta {w_i} = - \varepsilon \frac{{\partial E}}{{\partial {w_i}}} = \sum\limits_n {\varepsilon x_i^n\left( {{t^n} - {y^n}} \right)}$

错误面（Error Surface）

对于线性神经元、平方误差时，错误面是一个抛物面。
- 错误面的纵切面是抛物线。
- 错误面的横切面是椭圆。

在线（Online）学习与批（Batch）学习

在线学习权重在走之字形路线，如图1。

Neural Networks for Machine Learning by Geoffrey Hinton (三)

批学习权重路线要平缓得多，如图2。

Neural Networks for Machine Learning by Geoffrey Hinton (三)

为何学习过程会这么慢？

在权重空间某2个维度具有一定的相关性时，错误面会被拉长，其横剖面就变成了一个长椭圆，如图3。

Neural Networks for Machine Learning by Geoffrey Hinton (三)

与我们希望刚好相反，如图的红色向量在短轴方向有巨大分量，而在长轴方向分量却很小。

为什么对于多层神经网络直接学习权重是不可行的？

如果每次只训练某一个权重，那么唯一的修正信号就是错误。这样每次修正都要把整个网络正向计算一遍。效率太低。
如果每次训练调整所有权重，那么有相当大的可能会使最终的输出更糟糕。

反向传播的背后思路

我们并不知道隐含层神经元的值，但是我们知道当调整隐含神经元时错误改变的快慢。
每次可以修正所有的隐含层神经元，如图4。

Neural Networks for Machine Learning by Geoffrey Hinton (三)

$\partial E \partial z j = d y j d z j \partial E \partial y j = y j (1 - y j) \partial E \partial y j$ $\frac{{\partial E}}{{\partial {z_j}}} = \frac{{d{y_j}}}{{d{z_j}}}\frac{{\partial E}}{{\partial {y_j}}} = {y_j}\left( {1 - {y_j}} \right)\frac{{\partial E}}{{\partial {y_j}}}$
$\partial E \partial y i = \sum j d z j d y i \partial E \partial z j = \sum j w i j \partial E \partial z j$ $\frac{{\partial E}}{{\partial {y_i}}} = \sum\limits_j {\frac{{d{z_j}}}{{d{y_i}}}\frac{{\partial E}}{{\partial {z_j}}}} = \sum\limits_j {{w_{ij}}\frac{{\partial E}}{{\partial {z_j}}}}$
$\partial E \partial w i j = \partial z j \partial w i j \partial E \partial z j = y i \partial E \partial z j$ $\frac{{\partial E}}{{\partial {w_{ij}}}} = \frac{{\partial {z_j}}}{{\partial {w_{ij}}}}\frac{{\partial E}}{{\partial {z_j}}} = {y_i}\frac{{\partial E}}{{\partial {z_j}}}$

将错误率导数转化为学习过程

优化问题

如何利用各个输入样本对应的导数来求得一个良好的权重。
Online: after each training case.
Full batch: after a full sweep through the training data.
Mini-batch: after a small sample of training cases.
普适性问题

如何保证学习到得权重对于网络没见过的样本也能起作用。
Weight-decay
Weight-sharing
Early stopping
Model averaging
Bayesian fitting of neural nets
Dropout
Generative pre-training

Neural Networks for Machine Learning by Geoffrey Hinton (三)

Neural Networks for Machine Learning by Geoffrey Hinton (3)

训练感知机的方法并不能用以训练隐含层

为何不解析求解神经网络？

online delta-rule 与 感知机 learning rule 的区别与联系

错误面（Error Surface）

在线（Online）学习与批（Batch）学习

为何学习过程会这么慢？

为什么对于多层神经网络直接学习权重是不可行的？

反向传播的背后思路

将错误率导数转化为学习过程

相关推荐

online delta-rule 与感知机 learning rule 的区别与联系