深入理解机器学习:从原理到算法 学习笔记-第1周 02简易入门
2017-03-18 01:39
453 查看
深入理解机器学习:从原理到算法 学习笔记-第1周 02简易入门
深入理解机器学习从原理到算法 学习笔记-第1周 02简易入门1 一般模型统计学习理论框架
学习器的输入
学习器的输出
一个简单的数据生成模型
衡量成功
注意事项学习器可接触到的信息
2 经验风险最小化
3 考虑归纳偏置的经验风险最小化
我的主页 www.csxiaoyao.com
第二章分析并证明学习问题中需要考虑的因素。以木瓜为例,要学会判断木瓜是否好吃,需要观察木瓜的颜色和软硬程度以及亲口尝试来确定是否好吃。
首先是描述一个能够刻画类似学习任务的形式化模型。
2.1 一般模型——统计学习理论框架
1 学习器的输入
领域集:X,例如所有木瓜的集合。标签集:Y,目前仅讨论二元集合,如{0,1}或者{−1,+1},表示木瓜好吃和不好吃。
训练数据:形如S = ((x 1 ,y 1 )…(x m ,y m ))的有限序列,其中的元素以X ×Y形式成对出现,S称为训练集。
2 学习器的输出
学习器输出预测规则h:X→Y,该函数也称为预测器、假设或分类器,例如预测某农贸市场的木瓜是否好吃。A(S)表示学习算法A在给定的训练序列S的情况下得出的假设。3 一个简单的数据生成模型
训练数据如何产生?首先假设实例(木瓜)根据某些概率分布D(岛上环境)采样获得。此时学习器并不知道此概率分布的任何信息。假设存在(学习器并不知道)正确的标记函数f:X→Y,使对任意i,yi=f(xi),学习器的任务仅需要指出样本的正确标签(木瓜是否好吃)。综上,训练集S的产生过程是:首先根据概率分布D采集样本点xi,然后利用正确的标记函数f为其赋予标签。(h是预测结果,f是已知关系函数)4 衡量成功
分类器(预测)误差:即h的误差,也就是h(x)!=f(x)的概率,其中x是根据分布D采集的随机样本。形式上,给定一个领域子集A ⊂ X,概率分布D,D(A)决定了取到x∈A的概率,A更像一个表达式π:X→{0,1},即A= {x∈X:π(x) = 1},判断A是否在X中,此时D(A)可用P x∼D [π(x)]表示。
预测准则h:X→Y的错误率定义为:
L D,f (h)=Px∼D [h(x)!=f(x)]= D({x:h(x)!=f(x)})
其中x是X的一个随机样本,L D,f (h)也称为泛化误差、损失或h的真实误差。L(loss)代表误差。
5 注意事项:学习器可接触到的信息
分布D和标记函数f对学习器都是未知的,学习者需要观察训练集。2.2 经验风险最小化
由于学习器不知道D和f,所以无法直接获知真实误差,只能计算出训练误差:
其中[m] = {1,…,m},从预测器h出发到最小化LS(h)称为经验最小化,简称ERM。ERM可能会出现过拟合,LS(h)小不代表L D,f (h)小。
2.3 考虑归纳偏置的经验风险最小化
修正ERM通常的解决方案是在一个受限的搜索空间中使用ERM,学习器应该在接触到数据之前提前选择预测器的集合(假设类H),ERMH学习器根据在S上的最小化概率误差,利用ERM规则选择选择一个h∈H:
因为这种选择决定于学习器接触数据之前,因此需要一些学习问题的先验知识,虽然选择受限的假设类可以防止过拟合,但是也带来了更强的归纳偏置。
对于一个类来说,最简单的一种限制就是限定其势的上界(H中h的个数)。机器学习中通常假设S中训练样本是从D中独立同分布抽取的,但是仍然可能存在着训练样本对于分布D完全不具有代表性,因此我们将采样到非代表性样本的概率表示为δ,同时(1− δ) 称为置信参数。
由于无法摆在标签预测的绝对的准确性,引入一个参数评价预测的质量,称为精度参数,记为ε,如果L D,f (hs)<=ε,我们认为得到了一个近似正确的预测。
误导集:
总结:对于足够大的m,由ERMH规则生成的有限假设类将会概率(置信度为1 − δ)近似(误差上界为ε)正确。
相关文章推荐
- 机器学习入门学习笔记:(一)BP神经网络原理推导及程序实现
- [cocos2d-x学习笔记][入门基础]Box-2d物理引擎的使用02制作一个简易的愤怒小鸟Demo
- 编译原理学习笔记02——(对最基本文法的理解)——2014_1_12
- Servlet学习笔记_02_web入门并理解web服务器
- 深入理解JVM虚拟机学习笔记(二)垃圾收集器与垃圾收集算法
- 深入理解LINUX内核---学习笔记02
- 深入理解 JavaScript 系列学习笔记
- 【PHP原 4000 理学习】之深入理解PHP原理之Opcodes
- 学习笔记——深入理解计算机系统——启动
- CSS深入理解的学习笔记
- 初始化AudioTrace学习笔记------深入理解Android
- 深入理解计算机系统学习笔记(一)之此书简介
- 算法导论学习笔记-第二章-算法入门
- Introduction to Algorithms 算法导论 第2章 算法入门 学习笔记及习题解答
- 韩顺平_PHP程序员玩转算法公开课(第一季)02_单链表在内存中存在形式剖析_学习笔记_源代码图解_PPT文档整理
- 深入理解javascript学习笔记(一) 编写高质量代码
- Android入门:深入学习理解 Handler HandlerThread AsyncQueryHandler 三者的关系 收藏
- 转移指令的原理02 - 零基础入门学习汇编语言44
- 深入理解计算机系统(第二章学习笔记)
- 深入理解Linux网络内幕学习笔记