您的位置:首页 > 其它

统计学习(一)--统计学习的定义及常识

2015-05-22 17:13 363 查看
写在前面:

机器学习的一个比较热门的方向是统计机器学习(另外一个可能是图模型,按照Jordan的说法是统计机器学习属于频率主义,而图模型属于贝叶斯主义), 对于每一个做统计机器学习的研究者来说,他们大致可以分为两类:一类做统计学习理论相关工作,如泛化界、约简或一致性;一类做优化算法,如支持向量机、Boosting等。做为机器学习的初学者学好统计学的理论至关重要。只有理解了理论知识,才能抓住机器学习的实质。废话不多说,开始学习吧。

统计学习方法分类:

1. 监督学习(supervised learning)

2. 非监督学习(unsupervised learning)

3. 半监督学习 (semi-supervised learning)

4. 强化学习(reinforcement learning)

统计学习的三要素:

1. 模型(model)

2. 策略(strategy)

3. 算法(algorithm)

所谓模型就是两种形式:

1. 条件概率分布

                            


   就是根据部分得信息,计算出某种结果的可能性大小。比如:今天35度,晴,西瓜能卖出的可能性?

 2 .决策函数

        

                         


    就是一堆变量已知的情况下,应该得出什么样的值。 比如: 今天35度,晴, 街上的西瓜卖多少钱?

机器学习的终极目标就是得到尽可能精准的模型,用来预测未知信息。 机器学习的难点就在于追求模型“精准”的途中。 对于“精准”的判定,必需有一个可评价的标准,用来衡量模型的“精确度”,以便更好的为后续调整、取舍模型提供数据依据与支持。这里度量时需要用到的概念主要有损失函数风险函数。损失函数考查的是单样本(1个),风险函数考查的是多样本(N个)。

1. 损失函数:

(1) 0-1 损失函数:

                 


(2) 平方损失函数:

                


(3)绝对损失函数:

                 


(4)对数损失函数/对数似然损失函数:

                   

           


从上面的函数可知,损失函数说白了就是单个预测值f(X)和实际值Y不相符(预测失败)的不同衡量方法。显然损失函数越大,模型越不好

但单个损失的大小不能说明整体模型的好坏。跟中学数据中提到的成绩相同,要看整班的成绩好坏,得看平均分(期望),不能选单个学生的成绩做对比。毕竟每个班的好学生成绩都差不多。但对于模型来说,显然更绕一点。原因如下:

         要衡量一个模型的优劣,就是求期望风险,但我们在衡量模型时手上只有样品空间,无法拥有模型所处在的大千世界的真实数据。因此我们只能根据样本空间来预测模型。样品空间中模型表现(经验风险)好,就表明在大千世界中模型表现(期望风险)也好,这里的理论依据就是“大数定律”。

经验风险/经验损失:

                     



写到这里,寻找最优模型的本质已经可以表述成:在给定假设空间、损失函数及训练数据集的情况下,求经验风险最小化的过程。也即:经验风险最小时的模型就是所追求的真理(暂时的真理)

                                 

                   

但这样同时又存在另一个弊端,就是样本空间毕竟是有限的,在模型选取时,我可以最大限度的让经验风险最小。可以想象一下函数拟合的情况,总能找到一个函数通过给出的所有点。这样经验风险显然最好(为0)。但是一旦样本改变(增加若干个点),这个函数(模型)直接就跪了。这就是过拟合(over-fitting)。为在防止这种情况,就得使函数(模型)在尽量简单的情况下,达到经验风险最小

为了可度量"模型简单化和经验风险最小化"两个值,我们引入一个新概念:结构风险。

                                              


结构风险最小化

                                                     

                                     

         

通过调整系数( λ)大小,调节模型复杂度所占的比重。结构风险最小化才是我们追求的真理
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息