您的位置:首页 > 其它

5. 深度学习基础:机器学习原理与方法

2018-01-07 21:12 351 查看
深度学习是机器学习的一个分支。之前整理的机器学习的笔记见点击这个链接。阅读该书第5章后,补充一些小点。

1. 容量、过拟合、欠拟合

模型的容量:模型拟合各种函数的能力。我们可通过调整模型的容量,来控制模型是否偏向于过拟合或欠拟合。容量低的模型可能很难拟合训练集。容量高的模型,可能造成过拟合,记住了不适用于测试集的训练集性质。

如何控制模型容量?一种方法是选择假设空间。如果选了线性回归函数,将关于其输入的所有线性函数作为假设空间。如果选择广义线性回归,则假设空间包含了多项式函数,而非仅有线性函数了。

统计学习理论,提供了量化模型容量的不同方法。有名的一个是VC维。VC维度量二元分类器的容量,定义为该分类器能够分类的训练样本的最大数目。假设存在m个不同点的训练集,分类器可以任意地标记该m个不同的点,则VC维被定义为m的最大可能值。

参数模型:学习到的函数在观测新数据前,参数有限且固定的向量。非参数模型无此限制,例如:KNN。还可将一个参数学习算法(内层)嵌入到另一个增加参数数目的算法(外层)中,创建非参数学习算法。



2. 没有免费午餐定理

啥叫 no free lunch theorem?重点在 free 上。

机器学习的目标不是找一个通用学习算法,或者是绝对最好的学习算法。而是要具体问题,具体求解。要想在某个任务上效果最好,必须要找,即没有免费的午餐。

因为ML研究理论说:在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上,都有相同的错误率。

幸运的是,这个结论仅在我们考虑所有可能的数据生成分布时才成立。实际任务中,如果我们对遇到的概率分布进行假设的话,那么可以设计出在这些分布上效果最好的学习算法。

3. 无偏估计、有偏估计

点估计试图为一些感兴趣的量提供单个“最优”预测,例如线性回归中的权重 w 。加冒号,是因为这个“最优”是基于目前观测量的,接近于真实值,未必等于真实值。

估计的偏差被定义为:

bias(θ^m)=E(θ^m)−θ

如果 bias(θ^m)=0,则估计量 θm 就是无偏估计。估计所用方法,作用于所有数据上的期望就是θ。

举例:伯努利分布。考虑一组服从均值为θ的伯努利分布的独立同分布的样本:P(x(i);θ)=θx(i)(1−θ)(1−x(i))

我们常用估计量,是训练样本的均值:

θ^m=1m∑i=1mx(i)

代入得 bias(θ^m)=0 。则称样本均值是伯努利分布均值参数的无偏估计量。

无偏估计令人满意,但并不总是“最好”的估计。有时还常用其他有重要性质的有偏估计。

4. 方差

第3小节讨论了估计的偏差 bias(θ^)。考虑估计量的另一个性质是它作为样本的函数,期望的变化程度是多少,即估计量的方差 Var(θ^)。

含义:当独立的从潜在的数据生成过程中重采样数据集时,如何期望估计量的变化。

我们希望偏差较小,也希望方差较小。真实值是定的,换一次数据集,就求出一个估计,希望估计值变化越小越好。

以伯努利分布为例,关注估计 θ^m=1m∑mi=1x(i) 的方差:

Var(θ^m)=1mθ(1−θ)

估计量方差的下降速率是关于数据集样本数目 m 的函数。

均值的标准差作用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本数量决定了该估计的准确度。中心极限定理指出,均值会接近一个高斯分布。可计算出置信区间,来比较算法好坏。

点击:权衡偏差和方差,以最小化均方误差

一致性条件:当数据集中数据点的数量m趋近于无穷时,点估计会收敛到对应参数的真实值。我们想要这个条件。

若满足了一致性,则说明该估计量的偏差会随数据样本数目的增多而减少。反之,渐进无偏估计,却不等同于满足一致性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐