第4节--机器学习的基本概念
2016-10-21 11:00
232 查看
1、机器学习的基本概念
训练集、测试集、验证集、特征值、监督学习、非监督学习、半监督学习、分类、回归2、从一个小例子更好地理解这些概念
我们从“小明进行水上运动,是否享受运动取决于许多因素”这个例子入手理解机器学习的一些基本概念,如下图。(注意:看不清的话,右键–在新标签页中打开图片)每一行数据(一天)称为一个实例(instance),记为x
每个实例的属性值由天气,温度,湿度,风力,水温,预报6个属性表示
所有实例的集合(四天),称为样例,记为X
待学习的目标函数称为目标概念(target concept), 记做c。
当享受运动时,记c(x) = 1
当不享受运动时,记c(x) = 0
c(x)也可叫做y
学习目标:f: X -> Y
其实说白了,就是让我们根据“输入的属性值”和“输出的是否享受运动值”,找到两者之间的关系,也就是函数表达式f。即满足什么样的属性组合时,小明享受运动。
3、论文中常见的概念
训练集(training set/data)/训练样例(training examples):用来进行训练,也就是产生模型或者算法的数据集
测试集(testing set/data)/测试样例 (testing examples):
用来专门进行测试已经学习好的模型或者算法的数据集
特征向量(features/feature vector):
属性的集合,通常用一个向量来表示,附属于一个实例
标记(label):
c(x), 实例类别的标记,即上边例子中的是否享受运动的“是”与“否”
正例(positive example):“享受运动”
反例(negative example):“不享受运动”
4、例子:研究美国硅谷房价
ps:图片看不清的话,右键–在新标签页中打开图片分类 (classification): 目标标记为类别型数据(category)
即上面小明的例子,享受运动的“是”与“否”
回归(regression): 目标标记为连续性数值 (continuous numeric value)
即该例中的“房价”
5、例子:研究肿瘤良性恶性与尺寸颜色的关系
特征值:肿瘤尺寸,颜色标记:良性/恶性
有监督学习(supervised learning): 训练集有类别标记(class label)
上面“小明”和“房价”的例子都是有监督学习,因为不管是离散的值“是”与“否”还是连续的房价,c(x)都是已知的
无监督学习(unsupervised learning): 无类别标记(class label)
“肿瘤”的例子是无监督的学习,c(x)未知
半监督学习(semi-supervised learning):
有类别标记的训练集 + 无标记的训练集
6、机器学习的步骤
1)把数据拆分为训练集和测试集2)用训练集和训练集的特征向量来训练算法
3)用学习来的算法运用在测试集上来评估算法——可能要涉及到调整参数(parameter tuning), 用验证集(validation set)
相关文章推荐
- 机器学习基本概念-2
- 用十张图解释机器学习的基本概念
- 机器学习基本概念1
- 十张图解释机器学习的基本概念
- 公开课机器学习笔记(11)支持向量机一 向量机的基本概念
- 【机器学习 基本概念】从朴素贝叶斯到维特比算法:详解隐马尔科夫模型
- 机器学习基本概念(一)
- 机器学习基本概念、学习步骤框架、算法评估
- 程序员的机器学习入门笔记(一):基本概念介绍
- 大数据和机器学习等基本概念
- 【机器学习 基本概念】矩阵、向量求导法则
- 机器学习的基本概念
- 学习路线:入门机器学习基本概念之机器学习中常用评估指标汇总
- 机器学习之一些基本概念及符号系统
- 机器学习基本概念(1)--绪论
- 机器学习基本概念
- 【机器学习】一些基本概念及符号系统
- 机器学习(基本概念)
- 机器学习基本概念(二)
- 机器学习基本概念