您的位置：首页 > 其它

统计学习（一）--统计学习的定义及常识

2015-05-22 17:13 363 查看

写在前面：

机器学习的一个比较热门的方向是统计机器学习（另外一个可能是图模型，按照Jordan的说法是统计机器学习属于频率主义，而图模型属于贝叶斯主义），对于每一个做统计机器学习的研究者来说，他们大致可以分为两类：一类做统计学习理论相关工作，如泛化界、约简或一致性；一类做优化算法，如支持向量机、Boosting等。做为机器学习的初学者学好统计学的理论至关重要。只有理解了理论知识，才能抓住机器学习的实质。废话不多说，开始学习吧。

统计学习方法分类：

1. 监督学习（supervised learning)

2. 非监督学习（unsupervised learning)

3. 半监督学习 (semi-supervised learning)

4. 强化学习（reinforcement learning)

统计学习的三要素：

1. 模型（model)

2. 策略（strategy)

3. 算法（algorithm)

所谓模型就是两种形式：

1. 条件概率分布 ：

就是根据部分得信息，计算出某种结果的可能性大小。比如：今天35度，晴，西瓜能卖出的可能性？

2 .决策函数：

就是一堆变量已知的情况下，应该得出什么样的值。比如：今天35度，晴，街上的西瓜卖多少钱？

机器学习的终极目标就是得到尽可能精准的模型，用来预测未知信息。机器学习的难点就在于追求模型“精准”的途中。对于“精准”的判定，必需有一个可评价的标准，用来衡量模型的“精确度”，以便更好的为后续调整、取舍模型提供数据依据与支持。这里度量时需要用到的概念主要有损失函数和风险函数。损失函数考查的是单样本（1个），风险函数考查的是多样本（N个）。

1. 损失函数：

（1） 0-1 损失函数：

（2）平方损失函数：

（3）绝对损失函数：

（4）对数损失函数/对数似然损失函数:

从上面的函数可知，损失函数说白了就是单个预测值f(X)和实际值Y不相符（预测失败）的不同衡量方法。显然损失函数越大，模型越不好。

但单个损失的大小不能说明整体模型的好坏。跟中学数据中提到的成绩相同，要看整班的成绩好坏，得看平均分（期望），不能选单个学生的成绩做对比。毕竟每个班的好学生成绩都差不多。但对于模型来说，显然更绕一点。原因如下：

要衡量一个模型的优劣，就是求期望风险，但我们在衡量模型时手上只有样品空间，无法拥有模型所处在的大千世界的真实数据。因此我们只能根据样本空间来预测模型。样品空间中模型表现（经验风险）好，就表明在大千世界中模型表现（期望风险）也好，这里的理论依据就是“大数定律”。

经验风险/经验损失:

写到这里，寻找最优模型的本质已经可以表述成：在给定假设空间、损失函数及训练数据集的情况下，求经验风险最小化的过程。也即：经验风险最小时的模型就是所追求的真理（暂时的真理）。

但这样同时又存在另一个弊端，就是样本空间毕竟是有限的，在模型选取时，我可以最大限度的让经验风险最小。可以想象一下函数拟合的情况，总能找到一个函数通过给出的所有点。这样经验风险显然最好（为0）。但是一旦样本改变（增加若干个点），这个函数（模型）直接就跪了。这就是过拟合（over-fitting）。为在防止这种情况，就得使函数（模型）在尽量简单的情况下，达到经验风险最小。

为了可度量"模型简单化和经验风险最小化"两个值，我们引入一个新概念：结构风险。

结构风险最小化

通过调整系数（ λ）大小，调节模型复杂度所占的比重。结构风险最小化才是我们追求的真理。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 统计学习统计学机器学习算法

相关文章推荐

新的分享

章节导航