您的位置：首页 > 其它

机器学习的基本概念理解

2017-05-28 10:42 246 查看

术语理解
示例:

对应着数据中的一条记录（多条记录构成数据集)。可以包含标记，也可以不包含标记。
假设一条记录有多个属性构成的，则这条记录就有5维。多个属性构成的空间叫做属性空间，样本空间（示例也可以叫做样本）或者输入空间。每个属性都有多个属性取值，则每条记录都能够在输入空间中找到唯一的一个点与之对应，我们称这个点为一个坐标向量，因此我们也把一个示例称为一个特征向量。
样例：
拥有标记信息的示例，则称为样例。
模型：
对训练集(x1,y1),(x2,y2)....(xm,ym)进行学习，建立一个从输入空间x到输出空间y的映射f:x能够推 y，言下之意就是能够根据记录的属性数推测出记录的标签。也就是所谓的输入空间x推导出输出空间y的f。
预测：
对测试集(xm+1,ym+1),(xm+2,ym+2),...(xm+n,ym+n)，进行测试，根据输入空间x推导出输出空间y与示例的实际y值进行对比的过程。
泛化：
模型适用于新样本的能力，称为泛化能力（泛化能力有强弱之分）。
假设空间：
每个样例它有多个属性，每个属性有多个取值，这些取值之间的组合就构成了假设空间。我们的目的就是对这个空间进行搜索，从一般到特殊，或是自底向上，从特殊到一般，搜索过程中可以不断删除与正例不一致的假设，和(与）反例一致的假设。最终将会获得与训练集一致的假设，这就是我们学得到的结果，即模型。也就是说假设空间，我们学的模型，可能有多个，这个怎么办呢？选择哪个好了。
归纳偏好：在假设空间学到的模型有多个，每个模型在面对新样本的时候会产生不同的输出，机器学习对某种模型的偏好，称之为归纳偏好。
2.模型评估
错误率：如果在m个样本中有a个样本分类错误，则错误率为E=a/m
精度:1-E
泛化误差：我们把模型用于新样本上产生的误差，称为泛化误差。
欠拟合：对于训练集学习太差，泛化能力很弱，欠拟合问题容易解决。
过拟合：对于训练集学习太好，泛化能力很弱，过拟合很难解决。
泛化误差的衡量：需要一个测试集来测试学习器对新样本的判别能力，然后以测试集上的测试误差，作为泛化误差的近似。
测试集的选取有一定的标准。
留出法：直接将数据集D，划分成训练集S和测试集T，分层采样，训练集中有多少是正样本的比例，多少负样本的比例，则测试集中就应该有多少个。一般来说，即便给定训练集合测试集的样本比例后，不同的数据划分，也会造成结果的差异。例如500个正例中，有350个为训练集正例，150个为测试集正例，那么到底以这500个中，那些正例划分为350个呢，不同的划分方法结果也会不一样，怎么办呢？一般采用随机划分，重复进行试验评估后，去平均值做为留出法的评估结果。我们规定一般留出法的比例为2/3到4/5用于训练，剩余的用作测试。
留一法：就留一个做为测试，其他的都做为训练。
交叉验证法：将数据集划分为K个大小相似的互斥子集，都是通过分层采样，以前k-1个作为训练，第k个作为测试，测试算出第一次结果，在以k-2和最后一个k作为训练，以第k-1个作为测试集，算出第二次结果。....以此类推，多次算出之后，取其平均值。
自助法：从数据集中D，抽一个放入D’中，然后在放回D中，在继续抽一个放入D'中，抽取m个，这个对集成学习等方法会有很大的好处。（利于集成分类器的之间的差异性）
调参与最终模型：大多数学习算法，都有些参数需要设定，参数配置不同，学得模型的性能往往有差别。
性能度量：
对回归任务来说，最常用的性能度量是均方误差。
错误率：不必多说，前面有
精度：不必多说，前面有
分类结果的混淆矩阵：TP+FP+TN+FN=测试样本数。TP+FP=你认为的正例个数，TP是实际的正例个数。
FN+TN=你认为的反例个数，TN=实际反例个数。
查准率：实际的正例个数TP/你认为的正例个数
查全率：实际的正例个数TP/你认为的实际的正例个数+实际的反例个数

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 机器学习第一章理解

相关文章推荐

新的分享

章节导航