5. 深度学习基础:机器学习原理与方法
2018-01-07 21:12
351 查看
深度学习是机器学习的一个分支。之前整理的机器学习的笔记见点击这个链接。阅读该书第5章后,补充一些小点。
如何控制模型容量?一种方法是选择假设空间。如果选了线性回归函数,将关于其输入的所有线性函数作为假设空间。如果选择广义线性回归,则假设空间包含了多项式函数,而非仅有线性函数了。
统计学习理论,提供了量化模型容量的不同方法。有名的一个是VC维。VC维度量二元分类器的容量,定义为该分类器能够分类的训练样本的最大数目。假设存在m个不同点的训练集,分类器可以任意地标记该m个不同的点,则VC维被定义为m的最大可能值。
参数模型:学习到的函数在观测新数据前,参数有限且固定的向量。非参数模型无此限制,例如:KNN。还可将一个参数学习算法(内层)嵌入到另一个增加参数数目的算法(外层)中,创建非参数学习算法。
机器学习的目标不是找一个通用学习算法,或者是绝对最好的学习算法。而是要具体问题,具体求解。要想在某个任务上效果最好,必须要找,即没有免费的午餐。
因为ML研究理论说:在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上,都有相同的错误率。
幸运的是,这个结论仅在我们考虑所有可能的数据生成分布时才成立。实际任务中,如果我们对遇到的概率分布进行假设的话,那么可以设计出在这些分布上效果最好的学习算法。
估计的偏差被定义为:
bias(θ^m)=E(θ^m)−θ
如果 bias(θ^m)=0,则估计量 θm 就是无偏估计。估计所用方法,作用于所有数据上的期望就是θ。
举例:伯努利分布。考虑一组服从均值为θ的伯努利分布的独立同分布的样本:P(x(i);θ)=θx(i)(1−θ)(1−x(i))
我们常用估计量,是训练样本的均值:
θ^m=1m∑i=1mx(i)
代入得 bias(θ^m)=0 。则称样本均值是伯努利分布均值参数的无偏估计量。
无偏估计令人满意,但并不总是“最好”的估计。有时还常用其他有重要性质的有偏估计。
含义:当独立的从潜在的数据生成过程中重采样数据集时,如何期望估计量的变化。
我们希望偏差较小,也希望方差较小。真实值是定的,换一次数据集,就求出一个估计,希望估计值变化越小越好。
以伯努利分布为例,关注估计 θ^m=1m∑mi=1x(i) 的方差:
Var(θ^m)=1mθ(1−θ)
估计量方差的下降速率是关于数据集样本数目 m 的函数。
均值的标准差作用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本数量决定了该估计的准确度。中心极限定理指出,均值会接近一个高斯分布。可计算出置信区间,来比较算法好坏。
点击:权衡偏差和方差,以最小化均方误差
一致性条件:当数据集中数据点的数量m趋近于无穷时,点估计会收敛到对应参数的真实值。我们想要这个条件。
若满足了一致性,则说明该估计量的偏差会随数据样本数目的增多而减少。反之,渐进无偏估计,却不等同于满足一致性。
1. 容量、过拟合、欠拟合
模型的容量:模型拟合各种函数的能力。我们可通过调整模型的容量,来控制模型是否偏向于过拟合或欠拟合。容量低的模型可能很难拟合训练集。容量高的模型,可能造成过拟合,记住了不适用于测试集的训练集性质。如何控制模型容量?一种方法是选择假设空间。如果选了线性回归函数,将关于其输入的所有线性函数作为假设空间。如果选择广义线性回归,则假设空间包含了多项式函数,而非仅有线性函数了。
统计学习理论,提供了量化模型容量的不同方法。有名的一个是VC维。VC维度量二元分类器的容量,定义为该分类器能够分类的训练样本的最大数目。假设存在m个不同点的训练集,分类器可以任意地标记该m个不同的点,则VC维被定义为m的最大可能值。
参数模型:学习到的函数在观测新数据前,参数有限且固定的向量。非参数模型无此限制,例如:KNN。还可将一个参数学习算法(内层)嵌入到另一个增加参数数目的算法(外层)中,创建非参数学习算法。
2. 没有免费午餐定理
啥叫 no free lunch theorem?重点在 free 上。机器学习的目标不是找一个通用学习算法,或者是绝对最好的学习算法。而是要具体问题,具体求解。要想在某个任务上效果最好,必须要找,即没有免费的午餐。
因为ML研究理论说:在所有可能的数据生成分布上平均之后,每一个分类算法在未事先观测的点上,都有相同的错误率。
幸运的是,这个结论仅在我们考虑所有可能的数据生成分布时才成立。实际任务中,如果我们对遇到的概率分布进行假设的话,那么可以设计出在这些分布上效果最好的学习算法。
3. 无偏估计、有偏估计
点估计试图为一些感兴趣的量提供单个“最优”预测,例如线性回归中的权重 w 。加冒号,是因为这个“最优”是基于目前观测量的,接近于真实值,未必等于真实值。估计的偏差被定义为:
bias(θ^m)=E(θ^m)−θ
如果 bias(θ^m)=0,则估计量 θm 就是无偏估计。估计所用方法,作用于所有数据上的期望就是θ。
举例:伯努利分布。考虑一组服从均值为θ的伯努利分布的独立同分布的样本:P(x(i);θ)=θx(i)(1−θ)(1−x(i))
我们常用估计量,是训练样本的均值:
θ^m=1m∑i=1mx(i)
代入得 bias(θ^m)=0 。则称样本均值是伯努利分布均值参数的无偏估计量。
无偏估计令人满意,但并不总是“最好”的估计。有时还常用其他有重要性质的有偏估计。
4. 方差
第3小节讨论了估计的偏差 bias(θ^)。考虑估计量的另一个性质是它作为样本的函数,期望的变化程度是多少,即估计量的方差 Var(θ^)。含义:当独立的从潜在的数据生成过程中重采样数据集时,如何期望估计量的变化。
我们希望偏差较小,也希望方差较小。真实值是定的,换一次数据集,就求出一个估计,希望估计值变化越小越好。
以伯努利分布为例,关注估计 θ^m=1m∑mi=1x(i) 的方差:
Var(θ^m)=1mθ(1−θ)
估计量方差的下降速率是关于数据集样本数目 m 的函数。
均值的标准差作用。我们通常用测试集样本的误差均值来估计泛化误差。测试集中样本数量决定了该估计的准确度。中心极限定理指出,均值会接近一个高斯分布。可计算出置信区间,来比较算法好坏。
点击:权衡偏差和方差,以最小化均方误差
一致性条件:当数据集中数据点的数量m趋近于无穷时,点估计会收敛到对应参数的真实值。我们想要这个条件。
若满足了一致性,则说明该估计量的偏差会随数据样本数目的增多而减少。反之,渐进无偏估计,却不等同于满足一致性。
相关文章推荐
- 5. 深度学习基础:机器学习原理与方法(续)
- 深度学习基础模型算法原理及编程实现--04.改进神经网络的方法
- 机器学习实验(七):用特征值衰减正则化方法进行深度学习实验_2
- 深度学习和机器学习截然不同?模式识别是最古老的很过时的,机器学习是最基础的初创公司热点,深度学习是有影响力的前沿领域
- [置顶] 【深度学习基础】机器学习的定义与demo展示
- 机器学习深度学习基础笔记(3)——Backpropagation算法讲解
- 机器学习实验(八):用特征值衰减正则化方法进行深度学习实验_3
- 第2节--深度学习基础介绍-机器学习--课程介绍(下)
- 深度学习基础(六):LSTM模型及原理介绍
- 深度学习——数学与机器学习基础
- 机器学习深度学习基础笔记(1)——基础理论
- 机器学习 深度学习用到的数学基础知识 标量、向量、矩阵和张量
- 深度学习基础(九)—— 深度学习中的优化方法
- 深度学习新星:GAN的基本原理、应用和走向(文末附其他GAN的原理、方法、问题、改进方式和应用)
- 机器学习深度学习基础笔记(4)——Backpropagation算法实现
- 1.1机器学习基础-python深度机器学习
- [置顶] 机器学习 + 深度学习 + 计算机视觉 + 自然语言处理: 原理, 实践以及应用 --- 干货分享(持续更新…)
- [机器学习入门] 深度学习简介,GPU计算的原理,分布式机器学习原理
- 机器学习实验(六):用特征值衰减正则化方法进行深度学习实验_1
- 深度学习基础(五):循环神经网络概念、结构及原理实现