您的位置:首页 > 其它

机器学习实战

2014-09-01 11:15 225 查看

简述机器学习:

用计算机来彰显数据背后的意义,这个才是机器学习的真正含义,简而言之机器学习就是把无序的数据转换成有用的信息。与此同时,机器学习也需要一些统计学的知识,除了人类的行为之外,现实世界还存在许多的例子是我们无法运用数学模型进行描述的,这时我们就需要统计学工具。在这个数据膨胀的时代,需要的是在数据中不会迷失,穿越数据的雾霾,从中抽取有用的信息,机器学习可以完成。

机器学习术语:

一个简单的例子,鸟类专家系统:(根据鸟的特征,来判定这鸟属于什么类别)

标号体重(克)翼展(厘米)脚蹼颜色种属
11000125No棕色红尾鸠
22000200No灰色鹭鹰
33000220No灰色鹭鹰
44100136Yes黑色千鸟
5311No绿色蜂鸟
657075No黑色木鸟
此实例引出,机器学习的一个主要任务:分类
当决定使用什么机器学习算法进行分类,首先需要的是学习如何分类。通常需要为算法输入大量的已知分类数据作为算法的输入集合,如上表,存在着6个训练样本,每个样本有4个特征值,一个目标变量。最终的目标变量就是预测的结果。在此过程中,训练样本必须明确知道目标变量的值,这样机器学习算法才可以发现特征与目标变量之间的关系。而最终目标变量也称为类别,假定分类只存在有限个数的类别。为了验证机器学习算法的有效性,通常使用两套数据集,训练样本和测试数据。当机器学习算法运行的时候输入训练样本,模拟分类系统,而后输入测试数据,但此时的测试数据并不带有目标变量,由程序自己决定样本的类别。实验比较,程序得到的类别和已知的类别的差别,可以得出算法的准确度。

分类主要任务:将示例数据划分到所属的合适的分类中。
回归主要任务:主要用于预测数值型数据。
分类和回归都属于监督学习(此算法必须要知道预测什么,或者知道已定的类别信息)。

于此相对应的是:无监督学习(数据没有类别信息,也不给出目标变量)-----》聚类

如何选择算法:

首先很据使用机器学习的目的(是否预测目标的值),选择监督学习还是无监督学习,若是选定了监督学习,之后需要确定目标变量类型,若目标类型是离散的,是/否,1/2/3 等选择分类算法,若目标变量是连续的数值(0~10),则选用回归算法。
以上只能是大致的分算法方向,并不会具体到使用什么算法将会达到最优的目的,然而最好的算法就是反复试错的迭代过程。

应用机器学习的步骤:

(1)收集数据。
(2)准备输入数据
(3)分析输入数据
(4)训练算法
(5)测试算法
(6)使用算法

使用工具:

在实现算法的过程中,可以使用MATALB或者是Octave,也可以使用python进行实现,使用python的好处就是语法清晰,易于文本操作,但是同时也存在着不足之处,性能问题,在python构造机器学习应用时,经常会使用NumPy函数库,主要进行矩阵的运算,在python shell下:
>>>from numpy import * 即可使用NumPy函数库的函数。

分类小结:

分类必须了解到数据实例,每个数据实例由多个特征值组成,分类则是机器学习的基本任务,分析未分类的数据,进行分类处理,为了构建分类器必须先输入大量的分类数据,即训练样本集。在根据测试数据,讲数据输入到分类器之中,进行分类处理,最后将程序得出分类结果和已知的目标变量进行比较,得出机器学习算法的有效性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习 分类