深度学习中的数学—Lecture 1(1) Introduction:A Non-Rigorous Review of Deep Learning

原文地址
本篇文章为 MIT 课程 Mathematical Aspects of Deep Learning 的lecture 1 的学习笔记，没有进行完整的翻译，仅供参考

1.深度前向网络（Deep forward networks )

在统计学中，数据以的形式给出
其中, 。
我们的目标就是找到一个函数尽可能接近，这样我们才可以进行准确的预测。

而深度学习，总的来说就是 parametric statistics的子集。
我们有一个函数族

其中，

是参数（通常是高维的）。
我们的目标是找到一个

。
在这里，

在这里，如果要是非线性的。

受神经科学启发：神经细胞会接收多个输入信号，输出两种可能状态。一个最基本的模型设计感知机：
可以描述为

是非线性函数。 根据这个基本模型，我们可以定义 其中， 的coordinate-wise application。 那么， 应该怎样选择？ 我们希望 或者选择对数函数(logistic function ) 或 双曲正切(hyperbolic tangent) 这两个函数与 RELU 相比，优点在于 有界性 上。 上文中提到过，顶层(top layer)与其它层是不一样的。 顶层通常是scalar-valued 顶层有一些统计上的解释， 被认为是经典统计模型的参数。 顶层的 要根据这个统计含义来选择。 一个例子是线性函数 输出是一个高斯均值。 另一个例子是函数 进一步的,给出 soft-max 其中， 求了normalized exponential ) Simple example 1 > Input : [1, 2, 3, 4, 1, 2, 3], > Output: [0.024, 0.064, 0.175, 0.475, 0.024, 0.064, 0.175]. >The output has most of its weight where the' 4' was in the original input. >The function highlight the largest values and suppress values which are significantly below the maximum value. 例如：向一个网络输入一副图片，输出的 就对应的是这幅图片中是一只猫、狗或青蛙的概率 在后续几周，我们将关注这些问题： 这些函数是怎样近似一般函数的？ 深度 和 宽度 有怎样的表达能力(expressive power) ↩