您的位置：首页 > 其它

5. 深度学习基础：机器学习原理与方法

2018-01-07 21:12 351 查看

深度学习是机器学习的一个分支。之前整理的机器学习的笔记见点击这个链接。阅读该书第5章后，补充一些小点。

1. 容量、过拟合、欠拟合

模型的容量：模型拟合各种函数的能力。我们可通过调整模型的容量，来控制模型是否偏向于过拟合或欠拟合。容量低的模型可能很难拟合训练集。容量高的模型，可能造成过拟合，记住了不适用于测试集的训练集性质。

如何控制模型容量？一种方法是选择假设空间。如果选了线性回归函数，将关于其输入的所有线性函数作为假设空间。如果选择广义线性回归，则假设空间包含了多项式函数，而非仅有线性函数了。

统计学习理论，提供了量化模型容量的不同方法。有名的一个是VC维。VC维度量二元分类器的容量，定义为该分类器能够分类的训练样本的最大数目。假设存在m个不同点的训练集，分类器可以任意地标记该m个不同的点，则VC维被定义为m的最大可能值。

参数模型：学习到的函数在观测新数据前，参数有限且固定的向量。非参数模型无此限制，例如：KNN。还可将一个参数学习算法（内层）嵌入到另一个增加参数数目的算法（外层）中，创建非参数学习算法。

2. 没有免费午餐定理

啥叫 no free lunch theorem？重点在 free 上。

机器学习的目标不是找一个通用学习算法，或者是绝对最好的学习算法。而是要具体问题，具体求解。要想在某个任务上效果最好，必须要找，即没有免费的午餐。

因为ML研究理论说：在所有可能的数据生成分布上平均之后，每一个分类算法在未事先观测的点上，都有相同的错误率。

幸运的是，这个结论仅在我们考虑所有可能的数据生成分布时才成立。实际任务中，如果我们对遇到的概率分布进行假设的话，那么可以设计出在这些分布上效果最好的学习算法。

3. 无偏估计、有偏估计

点估计试图为一些感兴趣的量提供单个“最优”预测，例如线性回归中的权重 w 。加冒号，是因为这个“最优”是基于目前观测量的，接近于真实值，未必等于真实值。

估计的偏差被定义为：

bias(θ^m)=E(θ^m)−θ

如果 bias(θ^m)=0，则估计量 θm 就是无偏估计。估计所用方法，作用于所有数据上的期望就是θ。

举例：伯努利分布。考虑一组服从均值为θ的伯努利分布的独立同分布的样本：P(x(i);θ)=θx(i)(1−θ)(1−x(i))

我们常用估计量，是训练样本的均值：

θ^m=1m∑i=1mx(i)

代入得 bias(θ^m)=0 。则称样本均值是伯努利分布均值参数的无偏估计量。

无偏估计令人满意，但并不总是“最好”的估计。有时还常用其他有重要性质的有偏估计。

4. 方差

第3小节讨论了估计的偏差 bias(θ^)。考虑估计量的另一个性质是它作为样本的函数，期望的变化程度是多少，即估计量的方差 Var(θ^)。

含义：当独立的从潜在的数据生成过程中重采样数据集时，如何期望估计量的变化。

我们希望偏差较小，也希望方差较小。真实值是定的，换一次数据集，就求出一个估计，希望估计值变化越小越好。

以伯努利分布为例，关注估计 θ^m=1m∑mi=1x(i) 的方差：

Var(θ^m)=1mθ(1−θ)

估计量方差的下降速率是关于数据集样本数目 m 的函数。

均值的标准差作用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本数量决定了该估计的准确度。中心极限定理指出，均值会接近一个高斯分布。可计算出置信区间，来比较算法好坏。

点击：权衡偏差和方差，以最小化均方误差

一致性条件：当数据集中数据点的数量m趋近于无穷时，点估计会收敛到对应参数的真实值。我们想要这个条件。

若满足了一致性，则说明该估计量的偏差会随数据样本数目的增多而减少。反之，渐进无偏估计，却不等同于满足一致性。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航