您的位置:首页 > 其它

第一章 统计学习方法概论

2016-11-30 14:36 197 查看
这本书确实很好,一直都没有坚持学下去,真是可惜,现在每天打卡,学习一章,并做下学习笔记。

已经有人做过类似的笔记了:统计学习笔记(1)——统计学习方法概论

那我就不用求全,只需要总结框架,并把难懂的知识点重点理解。



第一章讲的基本是理论

统计学习:数据、建模、预测,全称统计机器学习;包括监督学习、无监督学习、半监督学习、强化学习。

监督学习:包括分类、标注和回归;训练集、假设空间、评价准则、测试集;三要素:模型、策略和算法。

输入空间、输出空间:输入输出变量用大写X、Y;变量所取的值用小写x,y;

特征空间:特征向量存在的空间,每一维对应一个特征,模型定义在特征空间中。

输入实例x的特征向量为(上标表示特征,下表表示实例个数):



欧式空间:欧几里德空间,平面几何、立体几何,一般化拓展到任意维度,长度、角度、内积。

标量和矢量:链接

回归问题:

分类问题:

标注问题:是分类的推广,输入是一个观测序列,输出是一个标记序列或者状态序列。

联合概率分布:输入和输出遵循联合概率分布P(X,Y),分布函数,是监督学习的基本假设。

假设空间:映射模型,所有可能模型的集合就是假设空间,确定了学习范围

两种模型:概率模型 条件概率分布 P(Y|X)、非概率模型 决策函数 Y=f(X)。决定映射关系。





小小想法:监督学习很好理解,我都给定训练集了,都有明确的评判标准了,我只需模型出来的结果和训练集的结果无限接近,此时的参数和模型就是我需要的。(会用到代价函数和梯度下降法)

模型:假设空间包含了所有可能的条件概率分布、决策函数,





策略:选择最优模型的准则,损失函数:模型一次预测的好坏;风险函数:平均意义下模型预测的好坏

损失函数:或者代价函数,用来度量预测错误程度,

,有很多种类:0-1、平方、绝对值、对数。

风险函数:即损失函数的期望,

(翻翻书吧,期望怎么求),学习的目标就是选择期望风险最小的模型。 联合分布一定是未知的,所以不能用这个来选择模型。

经验风险:给定训练集,模型在训练集的平均损失为经验风险,

,实际中只能根据经验风险来估计期望风险,但同时还必须要使得结构风险最小化,防止训练集过小引起的误差(过拟合)。

大数定理:

极限中心定理:

极大似然估计:等同于经验风险最小化(怎么理解)

最大后验概率估计:等价于结构风险最小化

结构风险最小化:防止过拟合,等价于正则化,

,就多了一个正则化项、罚项。权衡经验风险和模型复杂度。

泛函:

算法:求解最优模型的具体的计算方法,求全局最优解问题,一般没有显式的解析解(一步求解)。

学习方法评估:基于损失函数的训练误差 和 模型的测试误差。 泛化能力:学习方法对位置数据的预测能力

过拟合:以为追求对训练数据的预测能力,导致模型复杂度过高(模型参数太多)。

模型选择方法:正则化和交叉验证。

正则化:结构风险最小化策略的实现,加一个正则化项。





向量范数:百度百科

奥卡姆剃刀原理:从贝叶斯估计来看,正则化项对应于模型的先验概率。

交叉验证:数据充足时,可以将数据集分为:训练集、验证集和测试集。但现实是数据往往太少,所以要重复利用数据。分为:简单交叉验证、S折交叉验证、留一交叉验证。

泛化能力:一般通过测试误差来评价, 泛化误差上界:

生成模型:由数据学习联合概率分布,然后求条件概率分布,包括朴素贝叶斯法和隐马尔科夫模型。





判别模型:由数据直接学习决策函数和条件概率分布,包括:k近邻法,感知机,决策树,逻辑斯蒂回归,最大熵,支持向量机,条件随机场

分类准确率的度量:





精确率:

召回率:
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: