您的位置:首页 > 其它

机器学习实战(第1章)

2015-09-15 10:45 162 查看
第1章:机器学习基础
1.1何谓机器学习

除却一些无关紧要的情况,人们很难直接从原始数据本身获得所需信息。

机器学习对于任何需要解释并操作数据的领域都有所裨益。

1.3机器学习的主要任务

机器学习的主要任务就是分类。就是将实例数据划分到合适的分类中。

机器学习的另一项任务是回归。它的主要作用是预测数值型数据。大多数人可能都见过回归的例子--数据拟合曲线:通过给定数据点的最优拟合曲线。

分类和回归属于监督学习,之所以成为监督学习,是因为这类算法必须知道预测什么,即是目标变量的分类信息。

与监督学习相对应的是无监督学习,此时数据没有类别信息,也不会给定目标值。

在无监督学习中,将数据集合分成由类似的对象组成的多个类的过程被称为聚类;将寻找描述数据统计值的过程称为密度估计。此外,无监督学习还可以减少数据特征的维度,以便我们可以使用二维或三维图形更加直观地展示数据信息。



1.4如何选择合适的算法

从表中所列的算法中选择实际可用的算法,必须考虑以下两个问题:

一、使用机器学习算法的目的,想要完成何种任务。

二、需要分析或收集的数据是什么。

首先考虑使用机器学习算法的目的。如果想要预测目标变量的值,则可以选择监督学习算法,否则可以选择无监督学习算法。确定选择监督学习算法之后,需要进一步确定目标变量的类型,如果目标变量是离散型,如是/否、1/2/3、A/B/C等,则可以选择分类器算法;如果目标变量是连续型的数值,如0.0~100.00、-999~999等,则需要选择回归算法。

如果不想预测目标变量的值,则可以选择无监督学习算法。进一步分析是否需要将数据划分为离散的组。如果这是唯一的需求,则使用聚类算法;如果还需要估计数据与每个分组的相似程度,则需要使用密度估计算法。

其次需要考虑的是数据问题。我们应该充分了解数据。主要应该了解数据的以下特性:

特征值是离散型变量还是连续型变量,特征值中是否存在缺失的值,何种原因造成缺失值,书籍中是否存在异常值,某个特征发生的频率如何(是否罕见得如同海底捞针),等等。充分了解上面提到的这些数据特性可以缩短选择机器学习算法的时间。

1.5开发机器学习应用程序的步骤

(1)收集数据。收集数据样本,可以使用公开可用的数据源。

(2)准备输入数据。确保数据格式符合要求。

(3)分析输入数据。人工分析以前得到的数据。分析是否可以识别出模式。确保数据集中没有垃圾数据。

(4)训练算法。机器学习算法从这一步才正真开始学习。第4第5步才是机器学习算法的核心。如果使用无监督学习算法,由于不存在目标变量值,故也不需要训练算法,所有算法相关的内容都集中在第5步。

(5)测试算法。这一步实际使用第4步机器学习得到的知识信息。为了评估算法,必须测试算法工作的效果。对于监督学习,必须已知用于评估算法的目标变量值;对于无监督学习,也必须用其他的评测手段来检验算法的成功率。无论哪种情形,如果不满意算法的输出结果,则可以回到第4步,改正并加以测试。

(6)使用算法。将机器学习算法转换为应用程序,执行实际任务,以检验上述步骤是否可以再实际环境中正常工作。此时如果碰到新的数据问题,同样需要重复执行上述的步骤。

1.6Python语言的优势

基于以下3个原因,我们选择Python作为实现机器学习算法的编程语言:(1)Python的语法清晰;(2)易于操作纯文本文件;(3)使用广泛,存在大量的开发文档。

Python具有清晰的语法结构,大家也把它称为可执行伪代码。Python语言处理和操作文本文件非常简单,非常易于处理非数值型数据。Python语言提供了丰富的正则表达式函数以及很多访问Web页面的函数库,使得从HTML中提取数据变得非常简单直观。

Python语言唯一的不足是性能问题。Python程序运行的效率不如Java或者C语言高,但是我们可以使用Python调用C编译的代码。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: