您的位置：首页 > 其它

5. 深度学习基础：机器学习原理与方法（续）

2018-01-08 12:06 411 查看

1. 频率派、贝叶斯派

点估计，偏差估计，方差估计，一致性。最大似然估计（常用准则）。这些属于频率派统计方法。基于估计单一值θ的方法，然后基于该估计做所有预测。

另一种方法是做预测时会考虑所有可能的θ。属于贝叶斯统计范畴。

频率派视角：真实参数θ是未知的定值。点估计θ^是基于数据集上任意函数的随机变量。

例如，最大似然估计准则：

贝叶斯视角：概率反映知识状态的确定性程度。数据集能够直接观测到，因此不是随机的。真实参数θ是未知或不确定的，因此可表示为随机变量。

假设有一组数据样本，通过贝叶斯规则，结合数据似然和先验，得到数据对参数信念的影响：

区别：

不像最大似然方法预测时使用θ的点估计，贝叶斯方法使用θ的全分布。例如，观测到m个样本后，下一个数据样本的预测分布为：

贝叶斯先验分布。先验能够影响概率质量密度朝参数空间中偏好先验的区域偏移。实际中先验通常表现为偏好更简单或更光滑的模型

2. 最大后验估计（MAP）

原则上，应该使用参数θ的完整贝叶斯后验分布进行预测。

但是单点估计也是需要的。为什么呢？因为贝叶斯后验计算非常棘手。点估计可提供一个近似解。

通过先验来影响点估计的选择，而非简单回到最大似然估计，那么一个合理方法是MAP点估计近似法：

第一项对应的对数似然项，第二项对应先验分布。

权重衰减正则化（如L2正则化）的最大似然学习，可以解释为贝叶斯推断的MAP近似。对应此处的先验。

回忆下：朴素贝叶斯法，对应的是MAP法（贝叶斯推断）。决策树法，LR法，EM算法，HMM，CRF等算法，对应的是正则化的极大似然估计。参见李航书P211，各种统计方法的学习策略归纳。

也就是说，频率派和贝叶斯派，实质代表了两种不同的学习策略。

3. 无监督学习算法

无监督算法只处理“特征”，不操作监督信号。通俗讲，无监督学习的大多数尝试，是指从不需要人为注释的样本的分布中抽取信息。通常与密度估计、学习从分布中采样，学习从分布中去噪、寻找数据分布的流形、将样本聚类等任务相关。

一个经典的无监督学习任务：找到数据的“最佳”表示。所谓最佳，一般指的是，一种更简单的尽可能保存更多信息的表示。

常见的三种较简单的表示：

低维表示：维数更小

稀疏表示：大多数为0，表示的整体结构，倾向于将数据分布在空间的坐标轴上

独立表示：试图分开数据分布中变化的来源，让表示的维度是统计独立的

主成分分析：低维表示，独立表示标准

k-means聚类。

4. 随机梯度下降

机器学习算法的代价函数通常可以分解为每个样本的代价函数的总和。对于这些相加的代价函数，梯度下降计算时，也需要计算每个样本上的梯度。样本海量则计算消耗大。

随机梯度下降的核心：梯度是期望，期望可使用小规模的样本近似估计。算法每一步更新时，从训练集中均匀抽出一小批量样本来计算。

5. 构建机器学习算法

机器学习算法 = 特定数据集 + 模型 + 代价函数 + 优化过程

认识到大部分ML算法可以使用上述配方描述之后，可以将不同算法视为出于相同原因解决相关问题的一类方法，而非一长串各个不同的算法。

这个在李航老师书中非常明显，讲一个算法时，从背景，到模型，到代价函数，到优化，这么一个套路。

6. 促使深度学习发展的挑战

深度学习发展动机的一部分原因：传统机器学习算法在人工智能问题上泛化能力不足，如语音识别或对象识别。

6.1 为什么处理高维数据时，在新样本上泛化特别困难？

维数灾难：一组变量的不同的配置数量，随着变量数目的增加而指数级增加。

由维数灾难引发的一个挑战是统计挑战：变量的可能配置数目，远大于训练样本的数目。

描述样本特征的相关维度为 d，每一维上有 v 个取值，则需要 O(vd) 个区域和样本。例如，第三个图中，三维特征，每一维特征有10个取值，则有1000个区域，至少需要1000个样本覆盖。

每个区域中都有足够样本时，学习算法能够轻易的泛化得很好。例如，对一个样本分类时，我们可以返回相同网格中训练样本所属最多的一个类别。

但是，高维空间下，参数配置数目远远大于样本数量，大部分配置中没有相关样本，如果该网格中没有样本，就很麻烦了。许多传统ML算法只是简单地假设在一个新点的输出应该大致和最接近的训练点的输出相同。

这就是第一个问题的答案。

6.2 为什么传统ML泛化机制，不适合于高维空间中的复杂函数？

机器学习算法带有某种先验，去引导应该学习什么样的函数。

最广泛使用的隐式先验是：平滑先验，或者局部不变形。该先验表明学习的函数不应在小区域内发生很大的变化。

很多简单算法完全依赖于此达到良好泛化，其结果是不能推广去解决AI级别人物中的统计挑战。深度学习引入了额外的先验，去降低复杂任务中的泛化误差。

在该先验下，区分输入空间中的O(k)个空间，就需要O(k)个样本，O(k)个参数。

当要学习的函数足够平滑，并且只在少数几维变化，这样做一般没问题。但是高维中，即使非常平滑的函数，也会在不同维度上有不同的变化方式。如果函数在不同区间中表现不一样，则很难用一组训练样本去刻画函数。

有没有办法能表示区间数目比训练样本还多的复杂函数？有希望很好的泛化吗？

有。关键观点是：只要我们通过额外假设生成数据的分布来建立区域间的依赖关系，那么O(k)个样本足以描述多达O(2k)的大量区间。深度学习可做到非局部的泛化。

深度学习的核心思想：假设数据由因素或特征组合而成，这些因素或者特征，可能来自一个层次结构的多个层级。

7. 流形学习

流形（manifold）：连接在一起的区域。一组点，每个点都有其邻域。比如，地球是三维空间中的球状流形。

每个点周围领域的定义，暗示了：存在变换能够从一个位置移动到其领域位置。比如，我们可以在地球表面这个流形中，向东走。

上图解释：训练数据位于二维空间中的一维流形中。ML中考虑：少数嵌入到高维空间中的自由度，就能很好的理解流形的含义。样本实际上聚集在一维流形附近，如一条带子。蓝线表示学习器应该推断的隐式流形。

流形学习算法的假设：Rn中大部分区域都是无效的输入，有意义的输入只分布在包含少量数据点的子集构成的一组流形中。学习函数的输出中，有意义的变化都沿着流形的方向（上图蓝线）或仅发生在我们切换到另一流形时（上图蓝线交叉处）。

关键假设：概率质量高度集中。

AI的一些场景中，如处理图像、声音、文本时，流形假设至少是近似对的。现实世界的观察中，有两个支撑证据。

（支撑一）现实世界中的图像、文本、声音的概率分布高度集中。如图所示。

均匀噪声从来不会与这类结构化输入类似。上图是随机均匀抽取图像像素点生成的噪声图像。这意味着AI应用中遇到的图像，在所有图像空间中的占比可以是忽略不计的。同样，均匀随机抽取字母生成文件，基本不会得到有意义的文档。

当然，集中的概率分布不足以说明数据位于一个相当小的流形中。还要确保，样本间是相互连接的，每个样本被其他高度相似的样本包围着，他们可以通过变换来遍历该流形得到。

（支撑二）我们至少能够非正式的想象这些邻域和变换。

比如图像中，我们会想到很多变换来描绘出图片空间的流形，如逐步旋转、变亮等。大多数应用中可能涉及多个流形，比如，人脸流形不太可能连接到猫脸流形去。

基于这两个支撑，认为流形假设是存在的。那么，当数据位于低维流形中时，使用流形中坐标，而非Rn中坐标来表示更为自然。比如，我们可以认为道路是嵌入到三维空间中的一维流形，我们用一维道路中的地址号确定地址，而非三维空间坐标。（西沣路266号，而非xyz）。

提取流形中坐标非常具有挑战性。但是很有希望改进许多算法来实现，有一些学习这样的流形结构的必备方法完成它。

下图是包含人脸的数据集的流形结构。

人脸是移动的，覆盖对应两个旋转角度的二维流形。希望学习算法能够发现并解决这些流形坐标。即希望学习算法捕获到这些低维空间表示。

至此，深度学习的基础部分到此告一段落。即将开始第二部分：深层网络。包含：

深度前馈网络

正则化

优化

卷积网络

循环和递归网络

实践

应用

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航