您的位置：首页 > 其它

机器学习入门笔记(二) 机器学习基础概念

2019-09-11 22:41 288 查看

第二章机器学习基础概念

1、机器的数据
2、机器学习的主要任务
3、监督学习和非监督学习
4、批量、在线学习、参数、非参数学习
5、哲学思考
6、环境的搭建

1、机器的数据

我们以鸢尾花的数据为例。收集大量鸢尾花的数据，花瓣的萼片长度、萼片宽度、花瓣长度、花瓣宽度，同时标记属于se、ve、vi三种鸢尾花之一。

数据的整体叫做数据集。
我们收集的所有鸢尾花的数据就是一个数据集。
每一行数据称为一个样本。
（萼片长度=5.1，萼片宽度=3.5，花瓣长度=1.4、花瓣宽度=0.2、花期=se(0)），这样一行记录，称之为一个样本。
除最后一列，每一列表达样本的一个特征。
我们把萼片长度、萼片宽度、花瓣长度、花瓣宽度，叫做样本的特征。
（萼片长度=5.1，萼片宽度=3.5，花瓣长度=1.4、花瓣宽度=0.2）称为一个样本的特征向量。赋予语义以后，通常用一个列向量表示。
最后一列，称之为标记。
根据花朵的所有特征以及采集时花朵的状态，我们可以对花朵的花朵的花期进行标记，标记为待开的se(0)、盛放的ve(1)、凋谢的vi(2)三种。
用大写字母X表示特征矩阵，用小写字母表示y表示标记。第i个样本行写作

第i个样本第j个特征值

第i个样本的标记写作
若我们只根据萼片的宽度和长度，把所有花朵映射到一张二维表上，横轴为萼片宽度，纵轴为萼片长度，可以清晰的看到样本主要集中在红蓝两处，样本则被简单的分类。我们把所有特征值组成的空间叫做特征空间，而分类任务本质就是对特征空间的划分。在多属性映射的高维空间同理。

特征可以很抽象
特征可以很抽象，甚至没有语义。在图像中，每一个像素点都是特征，28x28的图像有784个特征，如果是彩色图像，特征更多。

2、机器学习的主要任务

本课程专注于机器学习中的监督学习。监督学习的基本任务是分类和回归。

分类

二分类
图像识别，判断一张图片是猫还是狗；根据病人各项数据，判断患者是良性肿瘤还是恶性肿瘤等。
多分类
手写数字识别，判断手写的数字是0~9中的哪个数字；市场风险评级；下围棋应该走那一步等。
多标签分类
例如图像识别中，一张女孩挥球拍的照片，标记女孩、球拍类型、动作等等。

因为是机器学习入门，主要学习二分类，部分多分类任务也能转化为二分类处理。

回归

结果是一个连续的数字的值，而非一个类别
一批数据给出房屋的面积、房屋的年龄、卧室数量、离地铁距离，提供房屋的价格等数据，来预测其他房屋的价格。价格是一个连续的值，而非一个类别。类似还有市场分析，预测学生的成绩分数等。
有时回归任务可以转化为分类任务
例如学生成绩，在回归任务中预测学生成绩分数，也可以转化为分类任务，对分数进行评级等。

3、监督学习和非监督学习

机器学习分类一：
监督学习

给机器的训练数据拥有“标记”或“答案”
例如鸢尾花分类中，及提供的鸢尾花的特征，也标记了鸢尾花的类型。
例如预测房价例子提供的数据中，除了提供房子的面积、卧室数量等信息，也提供了这些房子的售价价格。
监督学习通常采用K临近、线性回归、多项式回归、逻辑回归、SVM决策树和随机森林算法。

非监督学习：

给机器的训练数据没有任何“标记”或者“答案”
对没有“标记”的数据进行分类——聚类分析
电商网站中收集用户的消费行为，分类理智型消费者、冲动型消费者、性价比消费者等。
对数据进行降维处理
对采集的数据样本的特征进行提取或压缩
特征提取：信用卡的信用评级和人的胖瘦无关？
特征压缩：PCA算法处理，有时有的特征间关系很强，我们可以把多特征转化为特征间的映射关系从而减少特征数量，降维的好处也可以方便可视化。
异常检测
在二维的样本空间中，例如有异常点，它不具有表达样本特性的普遍性，可以去除。

半监督学习：

一部分数据有“标记”或者“答案”，另一部分数据没有
更常见：各种原因产生的标记缺失
通常先使用无监督学习手段对数据做处理，之后使用监督学习手段做模型的训练和预测。

增强学习：

根据周围环境的情况，采取行动，根据采取行的的结果，学习行为方式。

监督学习和半监督学习是机器学习的基础。

4、批量、在线学习、参数、非参数学习

机器学习分类二：

批量学习（离线学习）
先通过批量数据学习到模型，之后利用模型，向模型输入样例预测，模型不改变。
优点：简单
问题：如何适应环境变化？
解决方案：定时重新批量学习，重新训练模型。
缺点：每次重新批量学习，运算量巨大，在某些环境变化非常快情况下不可能实现。
在线学习
向学习得来的模型输入样例，得到预测结果，再于实时的正确结果对比，将正确结果放入算法中，继续修改模型。
优点：新的数据带来不好的变化？例如竞争者扰乱市场，使收集的样本中出现过多异常特征值。
解决：需要加强对数据进行监督----异常检测。
当数据数据量巨大时，采用在线学习可使数据被分批处理。
参数学习：
我们对房屋的价格进行假设，假设为房屋价格：

则训练的主要任务就变成了找到参数a、b，一旦学习到了参数，就不再需要原有的数据集。
非参数学习：
不对模型过多的假设。
非参数学习也有参数。

5、哲学思考

数据比算法重要？
2001年微软论文中，实验表明只要数据足够多，算法的准确性是相似的。这表明数据非常重要，预测结果依赖大量数据。
算法比数据更重要？
新版的阿尔法GO-zero在围棋比赛中打败阿尔法GO，阿尔法GO-zero具有超强学习算法，并不需要学习以往的棋谱数据，它完全凭借自身的能力，进行强化学习打败阿尔法GO。这说明算法也至关重要。
任意两个的算法，他们的期望性能是相同的。没有觉得的一个算法比另一个算法好，如果脱离具体问题，算法也没有意义。

6、环境的搭建

1、使用JupyterNotebook：
进入anaconda官网：下载3.7版本–>点击download–>windos–>python3.7，下载anaconda后安装，安装教程参考：link ，点击Anaconda Navigator，
安装JupyterNotebook，点击launch，
安装成功后会自动打开默认的浏览器，我使用的是文件是桌面上的test文件夹，所以点击Destktop->test，右上角点击new，python3，创建一个文件，会默认生成一个untitled的文件，点击文件名可以修改文件，保存后可以在桌面上的test文件夹下看到一个后缀名为.ipynb的文件。
2、有时会用到一些更方便的IDE环境，pycharm，下载地址：下载社区版，点击tools，pycharm，community，下载安装，安装教程网上也有很多。注意选择anaconda文件夹下的解析器。
关于JupyterNotebook和pycharm的使用网上有很多教程，这里就不细说了。