您的位置:首页 > 其它

基于《机器学习》学习整理- chapter 1

2016-11-08 17:52 190 查看

基于《机器学习》学习整理- chapter 1

@(机器学习)[数据]

基于机器学习学习整理- chapter 1
数据

假设空间

归纳与偏好

数据

机器学习的基本-数据,记录的集合-数据集。其中每条记录是一个实体的描述或者实例。通常每个实例又会有自己的属性特征,用一组不同的属性特征来从不同的方面来描述该实例,这些属性特征可以对应不同的特征值,那么就可以形成描述实例的”特征向量”。

简单的代数描述:

数据集D = {x1,x2,...,xm},表示共有m个实例;

若每个实例又有d个属性描述,则每个实例xi=(xi1,xi2,..,xid);

其中xij表示第i个实例在第j个属性上的取值。

(xi,yi)表示第i个实例,其中yi∈Y是实例xi的标记(label),Y是所有标记的组合,标记空间或者输出空间

- 训练集:训练样本组成的数据集;

- 假设:学得模型对应了关于数据的某种潜在的规律;

- 模型:学习器,可看作是学习算法在给定数据和参数空间上的实例化。

分类回归聚类

若我们预测的是离散值,此类学习任务即为分类,classification;若我们预测的是连续值,此类学习任务即为回归,regression;这两类是监督学习(supervised learning)的代表,聚类是无监督学习(unsupervised learning)的代表。

一般地,预测任务是希望通过对训练数据集{(x1,y1),(x2,y2),...,(xm,ym)}进行学习,建立一个从输入空间χ到输出空间Y的映射f:χ→Y.对于二分类任务,通常令Y={−1,+1}或{0,1};对多分类任务,|Y|>2;对于回归任务,Y=R,R为实数集。

一般而言,学得模型适用于新样本的能力,成为”泛化能力“,具有强泛化能力的模型能很好地适用于整个样本空间。通常假设样本空间中全体样本服从一个未知分布D,,我们获得的每个样本都是独立地从这个分布上采样获得的,即”独立同分布”(independent and identically distributed)。

假设空间

归纳学习

从样例中学习归纳,狭义上又称为概念学习或概念形成。其中最基本的是布尔概念学习,可表示为0/1布尔值的目标概念的学习。

学习过程

学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设,即能够将训练集中的样例判断正确的假设。假设的表示一旦确定,那么假设空间及规模大小就确定了。

学习的过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的”假设集合”,称之为”版本空间“(version space).

归纳与偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为”归纳偏好“(inductive bias)。

归纳偏好的作用,要学得一个与训练集一致的模型,相当于找到一条穿过所有训练样本点的曲线,显然,对于有限个样本组成的训练集,存在着很多条曲线与其一致。我们的学习算法必须有某种偏好,才能产出它认为”正确的”模型。

奥卡姆剃刀(Occam’s razor)

一种常用的、自然科学研究中最基本的原则,即若有多个假设与观察一致,则选最简单的那个。

NFL定理

为简单起见,假设样本空间χ和假设空间H都是离散的,令P(h|X,Ea)代表算法Ea基于训练数据X产生假设h的概率,再令f代表我们希望学习的真实函数,Ea的训练集外误差,即Ea在训练集之外的所有样本上的误差为:

Eote(Ea|X,f)=∑h∑x∈χ−XP(x)Ⅱ(h(x)≠f(x))P(h|X,Ea)

其中Ⅱ(.)是指示函数,若.为真是取1,否则取0.

若f均匀分布,则有一半的f对x的预测与h(x)不一致。

Eote(Ea|X,f)=2|χ|−1∑x∈χ−XP(x)

总误差竟然与学习算法无关!对于任意两个学习算法Ea和Eb,我们都有

∑fEote(Ea|X,f)=∑fEote(Eb|X,f)

这就是”没有免费的午餐”定理(No free Lunch Theorem,简称NFL定理).

前提:所有问题出现的机会相同、或所有问题都同等重要。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习