您的位置:首页 > 其它

机器学习概念理解

2017-10-29 21:21 155 查看
要进行机器学习,先要有数据。假定我们收集了一批关于西瓜的数据。例如(色泽=青绿;根蒂=蜷缩;敲声=浊响),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆),……,每对括号是一条记录。

这组记录的集合称为一个“数据集”(data set),其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个“示例”(instance)或“样本”(sample)。反映事件或对象在某方面的表现或性质的事项,例如“色泽”“根蒂”“敲声”,称为“属性”(attribute)或“特征”(feature);属性上的取值,例如“青绿”“乌黑”,称为“属性值”(attribute value)。我们把“色泽”“根蒂”“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个“特征向量”(feature vector)。

从数据中学得模型的过程称为“学习”(learning)或“训练”(training),这个过程通过执行某个学习算法来完成。训练过程使用的数据为“训练数据”(training data),其中每个样本称为一个“训练样本”,训练样本组成的集合称为“训练集”(training set)。

学得模型对应了关于数据的某种潜在规律,因此亦称“假设”(hypothesis);这种潜在规律自身,则称为“真相”或“真实”(ground-truth),学习过程就是为了找出或逼近真相。

如果希望学得一个能帮助我们判断没剖开的是不是“好瓜”模型,仅有前面的数据显然是不够的。要建立这样的关于“预测”(prediction)的模型,我们需获得训练样本的“结果”信息,例如“((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)”。这里关于实例结果的信息,例如“好瓜”,称为“标记”(label);拥有标记信息的示例,则称为“样例”(example)。

若我们预测的是离散值,例如“好瓜”“坏瓜”,此类学习任务称为“分类”(classification);若预测值是连续值,例如西瓜成熟度0.95,0.37,此类学习任务称为“回归”(regression)。对只涉及两个类别的“二分类”(binary classification)任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class);涉及多个类别时,则称为“多分类”(multi-class classification)任务。一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间到输出空间的映射。对二分类任务,通常另y={-1,+1}或{0,1};对于多分类任务,|y|>2;对于回归任务,y=R,R为实数集。

学得模型后,使用其进行预测的过程称为“测试”(testing),被预测的样本称为“测试样本”(testing sample)。例如,在学得f后,对测试例x,可得到其预测标记y=f(x)。

我们还可以对西瓜做“聚类”(clustering),即将训练集中的西瓜分为若干组,每组称为一个“簇”(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如“浅色瓜”“深色瓜”,甚至“本地瓜”“外地瓜”。这样的学习过程有助于我们了解数据内在的规律。需要说明的是,在聚类学习中,“浅色瓜”“本地瓜”这样的概念我们事先是不知道的,而且在学习过程中使用的样本通常不拥有标记信息。

根据训练数据是否拥有标记信息,学习任务可大致分为两大类:“监督学习”(supervised learning)和“无监督学习”(unsupervised learning),分类和回归是前者的代表,而聚类时后者的代表。

需注意的是,机器学习的目标是使得学得的模型能更好地适用于“新样本”,而不是仅仅在训练样本上工作得很好;即便对聚类这样无监督学习任务,我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称为“泛化”(generalization)能力。

参考书–>《机器学习》. 周志华
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: