绪论(1)--周志华机器学习学习笔记与课后习题
2016-11-16 21:32
357 查看
0、写在前面的话
目前一段时间打算利用业务时间学习周志华版《机器学习》,周老师在机器学习界的实力很强,所以这本书不仅仅是一本介绍理论和算法的书籍,更是周老师关于机器学习相关问题的心得体会。如果你没有相关基础,学习一遍也会对机器学习有一个整体框架的了解;若你有了一定基础甚至怀着一些迷茫,读这本书更会有恍然大悟、原来如此之感触。在后续章节中,周老师基于篇幅的考虑有些算法不够详尽,我可能会参考李航老师的《统计学习方法》等书再做进一步补充。总之,我愿与大家一起深入学习这本书,同时有三点说明:
1、内容会尽可能详尽而不繁琐,目录尽可能清晰明确
2、对于涉及到的概念、算法、课后习题,有留言的我会积极交流
3、白天还有其他事情要做,但我会尽力定期更新,也欢迎大家监督
1、机器学习
机器学习这门学科,是致力于研究如何通过计算的手段,利用经验改变自身的性能。在计算机系统中,经验以数据的形式存在,机器学习所研究的内容是关于在计算机上从数据中产生模型的算法,即是学习算法。有了学习算法,我们把经验数据提供给它,它能够基于这些数据产生模型,在面临一个新的情况时,模型会给我们提供相应的判断。2、特征、记录与数据集
记录是关于一个事件或者对象的描述,也称之为一个样本;数据集是由一条条记录组合,是记录的集合;
反映事件或者对象在某一个方面的表现或性质的事项,称之为属性或者特征;
属性上的取值称为属性值或者特征值;
属性组成的空间,称之为属性空间或特征空间;
编号 | 色泽 | 根蒂 | 敲声 | 西瓜类型 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
一般地,令D={x1,x2,...,xn} 表示包含m 个样本的数据集,每个样本由d 个属性描述(例如上面西瓜是由三个属性描述)则每个样本x1={xi1,xi2,...,xid} 是d维样本空间中的一个向量。上面的表述通俗的意思即是一个数据集有m个样本,每个样本包含d个属性。
3、学习/训练
从数据中学到模型的过程称之为学习或者训练;这个过程是通过执行某个学习算法来完成,训练过程中使用到的数据称之为训练数据(也即是刚刚介绍的数据集),每个样本称之为训练样本;学习得到的模型对应了关于数据的某种潜在规律,称之为假设;而这种潜在规律自身,称之为真相。通俗的来讲,即是给了我们一个数据集,其中已经蕴含着某种数据规律(即是真相),我们通过一种学习算法,来期望通过训练,找到这种真相,训练完之后我们得到的是模型(即是假设)。而且我们永远不知道我们得到的这种模型是不是真相,因为真相不可知,我们总是在尽力的逼近真相而已。
相关文章推荐
- 绪论(2)--周志华机器学习学习笔记与课后习题
- 绪论(3)--周志华机器学习学习笔记与课后习题
- 周志华《机器学习》课后习题解答系列(二):Ch1 - 绪论
- 林轩田-机器学习基石/技法-学习笔记-课后习题代码 汇总链接
- 《机器学习》周志华学习笔记——第一章 绪论
- 机器学习--周志华--课后习题3.3答案
- 机器学习(周志华) 习题3.5 个人笔记
- 周志华《机器学习》课后习题解答系列(六):Ch5.5 - BP算法实现
- 机器学习(周志华) 习题7.3 个人笔记
- 周志华《机器学习》课后习题解答系列(五):Ch4.4 - 编程实现CART算法与剪枝操作
- 习题答案探讨 - 《机器学习》周志华 - 第一章 绪论
- 周志华《机器学习》课后习题解答系列(四):Ch3.3 - 编程实现对率回归
- 周志华《机器学习》课后习题解答系列(一):目录
- 周志华《机器学习》课后习题解答系列(三):Ch2 - 模型评估与选择
- 周志华《机器学习》课后习题解答系列(四):Ch3.4 - 交叉验证法练习
- 学习python核心编程-第三章-课后习题笔记
- 『机器学习——周志华』学习笔记——第二章:模型评估与选择
- 机器学习-周志华-课后习题答案-决策树
- 周志华《机器学习》课后习题解答系列(五):Ch4 - 决策树
- 周志华《机器学习》课后习题解答系列(五):Ch4.3 - 编程实现ID3算法