您的位置：首页 > 其它

机器学习概念理解

2017-10-29 21:21 155 查看

要进行机器学习，先要有数据。假定我们收集了一批关于西瓜的数据。例如（色泽=青绿；根蒂=蜷缩；敲声=浊响），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆），……，每对括号是一条记录。

这组记录的集合称为一个“数据集”（data set），其中每条记录是关于一个事件或对象（这里是一个西瓜）的描述，称为一个“示例”（instance）或“样本”（sample）。反映事件或对象在某方面的表现或性质的事项，例如“色泽”“根蒂”“敲声”，称为“属性”（attribute）或“特征”（feature）；属性上的取值，例如“青绿”“乌黑”，称为“属性值”（attribute value）。我们把“色泽”“根蒂”“敲声”作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间，每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量，因此我们也把一个示例称为一个“特征向量”（feature vector）。

从数据中学得模型的过程称为“学习”（learning）或“训练”（training），这个过程通过执行某个学习算法来完成。训练过程使用的数据为“训练数据”（training data），其中每个样本称为一个“训练样本”，训练样本组成的集合称为“训练集”（training set）。

学得模型对应了关于数据的某种潜在规律，因此亦称“假设”（hypothesis）；这种潜在规律自身，则称为“真相”或“真实”（ground-truth），学习过程就是为了找出或逼近真相。

如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”模型，仅有前面的数据显然是不够的。要建立这样的关于“预测”（prediction）的模型，我们需获得训练样本的“结果”信息，例如“（（色泽=青绿；根蒂=蜷缩；敲声=浊响），好瓜）”。这里关于实例结果的信息，例如“好瓜”，称为“标记”（label）；拥有标记信息的示例，则称为“样例”（example）。

若我们预测的是离散值，例如“好瓜”“坏瓜”，此类学习任务称为“分类”（classification）；若预测值是连续值，例如西瓜成熟度0.95，0.37，此类学习任务称为“回归”（regression）。对只涉及两个类别的“二分类”（binary classification）任务，通常称其中一个类为“正类”（positive class），另一个类为“反类”（negative class）；涉及多个类别时，则称为“多分类”（multi-class classification）任务。一般地，预测任务是希望通过对训练集进行学习，建立一个从输入空间到输出空间的映射。对二分类任务，通常另y={-1,+1}或{0,1}；对于多分类任务，|y|>2；对于回归任务，y=R,R为实数集。

学得模型后，使用其进行预测的过程称为“测试”（testing），被预测的样本称为“测试样本”（testing sample）。例如，在学得f后，对测试例x，可得到其预测标记y=f(x)。

我们还可以对西瓜做“聚类”（clustering），即将训练集中的西瓜分为若干组，每组称为一个“簇”（cluster）；这些自动形成的簇可能对应一些潜在的概念划分，例如“浅色瓜”“深色瓜”，甚至“本地瓜”“外地瓜”。这样的学习过程有助于我们了解数据内在的规律。需要说明的是，在聚类学习中，“浅色瓜”“本地瓜”这样的概念我们事先是不知道的，而且在学习过程中使用的样本通常不拥有标记信息。

根据训练数据是否拥有标记信息，学习任务可大致分为两大类：“监督学习”（supervised learning）和“无监督学习”（unsupervised learning），分类和回归是前者的代表，而聚类时后者的代表。

需注意的是，机器学习的目标是使得学得的模型能更好地适用于“新样本”，而不是仅仅在训练样本上工作得很好；即便对聚类这样无监督学习任务，我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力，称为“泛化”（generalization）能力。

参考书–>《机器学习》. 周志华

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航