您的位置:首页 > 其它

绪论(1)--周志华机器学习学习笔记与课后习题

2016-11-16 21:32 357 查看

0、写在前面的话

目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学习方法》等书再做进一步补充。

总之,我愿与大家一起深入学习这本书,同时有三点说明:

1、内容会尽可能详尽而不繁琐,目录尽可能清晰明确

2、对于涉及到的概念、算法、课后习题,有留言的我会积极交流

3、白天还有其他事情要做,但我会尽力定期更新,也欢迎大家监督

1、机器学习

机器学习这门学科,是致力于研究如何通过计算的手段,利用经验改变自身的性能。在计算机系统中,经验以数据的形式存在,机器学习所研究的内容是关于在计算机上从数据中产生模型的算法,即是学习算法。有了学习算法,我们把经验数据提供给它,它能够基于这些数据产生模型,在面临一个新的情况时,模型会给我们提供相应的判断。

2、特征、记录与数据集

记录是关于一个事件或者对象的描述,也称之为一个样本;

数据集是由一条条记录组合,是记录的集合;

反映事件或者对象在某一个方面的表现或性质的事项,称之为属性或者特征;

属性上的取值称为属性值或者特征值;

属性组成的空间,称之为属性空间或特征空间;

编号色泽根蒂敲声西瓜类型
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍蜷沉闷
在上面的表中,每一条均为描述西瓜的一条样本;这四条记录的集合称之为数据集;其中描述西瓜表现的属性分别有色泽、根蒂和敲声;在每一条样本中均有对应的属性值,比如第一条中的青绿、蜷缩和浊响;将这三个特征作为三个坐标轴,则形成一个用于描述西瓜的三维空间,每个西瓜均可在这个空间中找到自己的坐标位置。

一般地,令D={x1,x2,...,xn} 表示包含m 个样本的数据集,每个样本由d 个属性描述(例如上面西瓜是由三个属性描述)则每个样本x1={xi1,xi2,...,xid} 是d维样本空间中的一个向量。上面的表述通俗的意思即是一个数据集有m个样本,每个样本包含d个属性。

3、学习/训练

从数据中学到模型的过程称之为学习或者训练;这个过程是通过执行某个学习算法来完成,训练过程中使用到的数据称之为训练数据(也即是刚刚介绍的数据集),每个样本称之为训练样本;学习得到的模型对应了关于数据的某种潜在规律,称之为假设;而这种潜在规律自身,称之为真相。

通俗的来讲,即是给了我们一个数据集,其中已经蕴含着某种数据规律(即是真相),我们通过一种学习算法,来期望通过训练,找到这种真相,训练完之后我们得到的是模型(即是假设)。而且我们永远不知道我们得到的这种模型是不是真相,因为真相不可知,我们总是在尽力的逼近真相而已。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习