您的位置:首页 > 其它

第4节--机器学习的基本概念

2016-10-21 11:00 232 查看

1、机器学习的基本概念

训练集、测试集、验证集、特征值、监督学习、非监督学习、半监督学习、分类、回归

2、从一个小例子更好地理解这些概念

我们从“小明进行水上运动,是否享受运动取决于许多因素”这个例子入手理解机器学习的一些基本概念,如下图。(注意:看不清的话,右键–在新标签页中打开图片)



每一行数据(一天)称为一个实例(instance),记为x

每个实例的属性值由天气,温度,湿度,风力,水温,预报6个属性表示

所有实例的集合(四天),称为样例,记为X

待学习的目标函数称为目标概念(target concept), 记做c。

当享受运动时,记c(x) = 1

当不享受运动时,记c(x) = 0

c(x)也可叫做y

学习目标:f: X -> Y

其实说白了,就是让我们根据“输入的属性值”和“输出的是否享受运动值”,找到两者之间的关系,也就是函数表达式f。即满足什么样的属性组合时,小明享受运动。

3、论文中常见的概念

训练集(training set/data)/训练样例(training examples):

用来进行训练,也就是产生模型或者算法的数据集

测试集(testing set/data)/测试样例 (testing examples):

用来专门进行测试已经学习好的模型或者算法的数据集

特征向量(features/feature vector):

属性的集合,通常用一个向量来表示,附属于一个实例

标记(label):

c(x), 实例类别的标记,即上边例子中的是否享受运动的“是”与“否”

正例(positive example):“享受运动”

反例(negative example):“不享受运动”

4、例子:研究美国硅谷房价

ps:图片看不清的话,右键–在新标签页中打开图片



分类 (classification): 目标标记为类别型数据(category)

即上面小明的例子,享受运动的“是”与“否”

回归(regression): 目标标记为连续性数值 (continuous numeric value)

即该例中的“房价”

5、例子:研究肿瘤良性恶性与尺寸颜色的关系

特征值:肿瘤尺寸,颜色

标记:良性/恶性

有监督学习(supervised learning): 训练集有类别标记(class label)

上面“小明”和“房价”的例子都是有监督学习,因为不管是离散的值“是”与“否”还是连续的房价,c(x)都是已知的

无监督学习(unsupervised learning): 无类别标记(class label)

“肿瘤”的例子是无监督的学习,c(x)未知

半监督学习(semi-supervised learning):

有类别标记的训练集 + 无标记的训练集

6、机器学习的步骤

1)把数据拆分为训练集和测试集

2)用训练集和训练集的特征向量来训练算法

3)用学习来的算法运用在测试集上来评估算法——可能要涉及到调整参数(parameter tuning), 用验证集(validation set)
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: