您的位置:首页 > 其它

第一章 统计学习方法概论

2015-03-20 23:47 176 查看
1、统计学习:是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科

2、统计学习主要特点:(1)统计学习以计算机及网络为平台,是建立在计算机及网络之上的(2)统计学习以数据为研究对象,是数据驱动的学科(3)统计学习的目的是数据进行预测与分析(4)统计学习以方法为中心,统计学习方法构建模型并应用模型进行预测与分析(5)统计学习是概率、统计学、信息论、计算理论、最优化理论及计算机科学等多个领域的交叉学科,并且在发展中逐步形成独立的理论体系与方法论。

3、统计学习的对象是数据,它从数据出发,提取数据的特征,抽象数据的模型,发现数据中的知识,回到对数据的分析与预测中去。

4、统计学习关于数据的基本假设:同类数据具有一定的统计规律性,这是统计学习的前提。

5、统计学习总的目标:考虑学习什么样的模型和如何学习模型,以使模型能对数据进行准确的预测与分析,同时也要考虑尽可能地提高学习效率。

6、统计学习方法(监督学习):从给定的、有限的、用于学习的训练数据集合出发,假设数据是独立同分布产生的;并且假设要学习的模型属于某个函数集合,称为假设空间;应用某个评价准则,从假设空间中选取一个最优的模型,使它对已知训练数据及未知测试数据在给定评价准则下有最远的预测;最优模型的选取由算法实现。

7、统计学习方法的三要素:模型(模型的假设空间)、策略(模型选择的准则)、算法(模型学习的算法)。

8、实现统计学习方法的步骤如下:

(1)得到一个有限的训练数据集合;

(2)确定包含所有可能的模型的假设空间,即学习模型的集合;

(3)确定模型选择的准则,即学习的策略

(4)实现求解最优模型的算法,即学习的算法;

(5)通过学习方法选择最优模型

9、统计学习研究包括:统计学习方法,统计学习理论、统计学习应用

10、统计学习重要性:

(1)统计学习是处理海量数据的有效方法

(2)统计学习是计算机智能化的有效手段

(3)统计学习是计算机科学方法的一个重要组成部分

11、监督学习


务:是学习一个模型,是模型能够对任意给定的输入,对其相应的输出做出一个好的预测

目 的:在于学习一个由输入到输出的映射,这一映射由模型来表示。

12、损失函数:(度量模型一次预测的好坏

风险函数:理论上模型f(x)关于联合分布P(X,Y)的平均意义下的损失。(度量平均意义下模型预测的好坏

学习的目的:选择期望风险最小的模型。

经验风险或经验损失函数:模型f(x)关于训练数据集的平均损失。

经验风险最小化:认为经验风险最小的模型是最优模型。根据这一策略,按照经验风险最小化求最优模型就是最优化模型。(缺点:当样本容量很小时,经验风险最小化策略,会产生过拟合现象)

结构风险最小化:在经验风险上加上表示模型复杂度的正则化项或惩罚项。为了防止过拟合提出的。(结构风险小需要经验风险与模型复杂度同时小,结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测)

算法:指学习模型的具体计算方法

13、训练误差:对判断给定的问题是不是一个容易学习的问题是有意义的,本质上不重要。

测试误差:反映学习方法对未知的测试数据集的预测能力,是学习中的重要概念。通常对学习方法对未知数据的预测能力称为泛化能力。

14、过拟合:一味追求提高对训练数据的预测能力,所选择的模型的复杂度往往比真模型更高,级包含的参数过多,以至于对已知数据预测的很好,但对未知数据预测的很差的现象。

15、多项式函数拟合:

任务:假设给定数据由M次多项式函数生成,选择最有可能产生这些数据的M次多项式函数,即在M次多项式函数中选择一个对已知数据以及未知数据都有很好预测能力的函数。

方法:首先确定模型的复杂度,即确定多项式的次数;

然后在给定模型复杂度下,按照经验风险最小化策略,求解参数,即多项式的系数。

16.正则化:是结构风险最小化策略的实现,是检验风险上加上一个正则化项或者罚项。一般是模型复杂度的单调递增函数,模型越复杂,正则化值就越大。

基本思想:第一项的经验风险较小的模型可能较复杂(有多个非零参数),这时第二项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型 。

17、交叉验证:如果给定样本数据充足,进行模型选择的一种简单方法是随机地将数据集切分成三部分,分别为训练集,验证集,测试集。训练集用来训练模型;验证集用于模型的选择;测试集用于最终对学习方法的评估。在学习到的不同复杂度的模型中,选择对验证集有最小预测误差的模型。由于验证集有足够多的数据,用它对模型进行选择也是有效的。

基本思想:重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集与测试集,在此基础上反复地进行训练、测试以及模型选择。

(1) 简单交叉验证方法:首先随机地将已给数据分为两个部分,一部分作为训练集,另一部分作为测试集;然后训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。

(2)S折交叉验证方法:首先随机将已给数据切分成S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行;最后选出S次评测中平均测试误差最小的模型。

(3)留一交叉验证方法:S折交叉验证的特殊情形是S=N,称为留一交叉验证。(往往在数据缺乏的情况下使用。N是给定数据集的容量)

18、泛化能力:指由该方法学习到的模型对未知数据的预测能力,是学习方法本质上重要的性质。现实中采取最多的方法是通过测试误差评价学习方法的泛化能力。但这种评价依赖测试数据集的。因为测试数据集是有限的,很有可能由此得到的评价结果是不可靠的。统计学习理论试图从理论上对学习方法的泛化能力进行分析。

泛化误差:如果学到的模型是f^jian,那么用这个模型对未知数据预测的误差即为泛化误差。R_exp(f^jian) = .....

泛化误差反映了学习方法的泛化能力,越小方法更有效。实际上就是期望风险。

19、泛化误差上界:学习方法的泛化能力分析往往是通过研究泛化误差的概率上界进行的,简称泛化误差上界。(比较2中学习方法的泛化误差上界)

泛化误差上界性质:是样本容量的函数,当样本容量增加时,泛化上界趋于0;是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。

20、监督学习方法又可分为:

生成方法:由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型。(典型生成模型:朴素贝叶斯法,隐马尔可夫模型)。特点:生成方法可以还原出联合概率分布P(y|x),而判别方法不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别方法:由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。关心的是对给定的输入X,应该预测什么样的输出Y。(典型的判别模型包括:k近邻法,感知器,决策树,逻辑斯蒂回归模型,最大熵模型,支持向量机,提升方法和条件随机场)。特点:判别方法直接学习的是条件概率P(Y|X)或决策函数f(X),直接面对预测,往往学习的准确率更高;由于直接学习P(Y|X)或f(X),可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

21. 分类器:监督学习从数据中学习一个分类模型或分类决策函数,称为分类器。

分类:分类器对新的输入进行输出的预测

类:可能的输出称为类

多类分类问题:分类的类别为多个时

22、分类问题包含:

学习:根据已知的训练数据集利用有效的学习方法学习一个分类器

分类:利用学习的分类器对新的输入实例进行分类。

23、分类准确率:对于给定的测试数据集,分类器正确分类的样本数与总样本数之比。(评价分类器性能的指标)

24、标记问题的输入是一个观测序列,输出是一个标记序列或状态序列。

目标:在于学习一个模型,使它能够对观测序列给出标记序列作为预测。(注意:可能的标记个数是有限的,但其组合所成的标记序列的个数是依序列长度呈指数级增长的)

常用的统计学习方法:隐马尔可夫模型、条件随机场

25、回归:用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之 发生的变化。

回归模型:表示从输入变量到输出变量之间映射的函数。回归问题的学习等于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据。

回归问题分为:

学习:首先给定一个训练集,学习系统基于训练数据构建一个模型,即函数Y = f(X)

预测:对新的输入,预测系统根据学习的模型确定响应的输出。

回归学习最常用的损失函数是平方损失函数,因此可以用最小二乘求解。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: