您的位置:首页 > 其它

机器学习 第八周 总结 知识点

2017-10-13 22:27 176 查看
主要讲无监督算法,主要是聚类(K均值算法)和降维(PCA主成分分析法)   为线性代数和概率统计打call!!

 

第十三章  主要讲聚类(K均值算法)如何选择K值  肘部法则



在这里我们有一系列点,却没有标签。因此,我们的训练集可以写成只有 x(1),x(2)…..一直到 x(m)。我们没有任何标签 y。因此,图上画的这些点没有标签信息。也就是说,在非监督学习中,我们需要将一系列无标签的训练数据,输入到一个算法中,然后我们告诉这个算法,快去为我们找找这个数据的内在结构给定数据。我们可能需要某种算法帮助我们寻找一种结构。图上的数据看起来可以分成两个分开的点集(称为簇),一个能够找到我圈出的这些点集的算法,就被称为聚类算法。

 

K-均值

K-均值是最普及的聚类算法,算法接受一个未标记的数据集,然后将数据聚类成不同的组。

K-均值是一个迭代算法,假设我们想要将数据聚类成 n 个组,其方法为:

首先选择 K 个随机的点,称为聚类中心(clustercentroids);

对于数据集中的每一个数据,按照距离 K 个中心点的距离,将其与距离最近的中心点关

联起来,与同一个中心点关联的所有点聚成一类。

计算每一个组的平均值,将该组所关联的中心点移动到平均值的位置。

重复步骤 2-4 直至中心点不再变化。





一些定义



用 μ1,μ2,...,μk 来表示聚类中心,用c(1),c(2),...,c(m)来存储与第 i 个实例数据最近的聚类中心的索引





K-均值算法

K-均值最小化问题,是要最小化所有的数据点与其所关联的聚类中心点之间的距离之和,因此 K-均值的代价函数(又称畸变函数 Distortion function)为:



其中 μc(i)代表与 x(i)最近的聚类中心点。 我们的的优化目标便是找出使得代价函数最小的 c(1),c(2),...,c(m)和 μ1,μ2,...,μk:



第一个循环是用于减小 c(i)引起的代价,

而第二个循环则是用于减小 μi 引起的代价。迭代的过程一定会是每一次迭代都在减小代价函数,不然便是出现了错误。直到不会再发生变化为止。K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。为了解决这个问题,我们通常需要多次运行 K-均值算法,每一次都重新进行随机初始化,最后再比较多次运行 K-均值的结果,选择代价函数最小的结果。这种方法在 K 较小的时候(2--10)还是可行的,但是如果 K 较大,这么做也可能不会有明显地改善。



随机初始化

在运行 K-均值算法的之前,我们首先要随机初始化所有的聚类中心点,下面介绍怎样

做:

1. 我们应该选择 K<m,即聚类中心点的个数要小于所有训练集实例的数量

2. 随机选择 K 个训练实例,然后令 K 个聚类中心分别与这 K 个训练实例相等

K-均值的一个问题在于,它有可能会停留在一个局部最小值处,而这取决于初始化的情况。 

 

总结K-均值算法

1.      首先初始化K个中心(最开始的K个簇中心)(K和k代表的含义有所不同,K是簇中心的个数,k是序号为k的簇中心)

2.      计算每一个在序号为k的簇中的点到簇中心的距离(k值从1到K),选择一个距离最短的簇染成其颜色(视频中的例子)

3.      第2步骤结束后重新计算K个簇中心的位置(求在该簇中所有点的平均值)。返回第2步骤,重新计算。直到不再发生变化(个人理解的算法,勿喷)(一般而言,最后会有K个簇中心。但是如果在运算过程中一个簇中一直没有点,一个常见点做法是将该簇中心删除,则最后的结果会剩下K-1个簇中心,或者是删除后再随机选择一个簇中心,前面的处理方法常见)

 

 

选择聚类数

 

聚类数往往是因为人的需要,手动选择的。选择聚类数目的方法时,有一个可能会谈及的方法叫作“肘部法则”。关于“肘部法则”,我们所需要做的是改变 K 值,也就是聚类类别数目的总数。我们用一个聚类来运行 K 均值聚类方法。这就意味着,所有的数据都会分到一个聚类里,然后计算成本函数或者计算畸变函数 J。K 代表聚类数字。



如果你得到了一个像上面的左图,那么这将是一种用来选择聚类个数的合理方法。选择变化最大的一点(在上图中就是K=3),现实中经常是会出现右图的情况,自己手动选择。

 

第十四章

主要讲降维(PCA主成分分析) 以及其适用范围

 

有几个不同的的原因使你可能想要做降维。一是数据压缩,后面我们会看了一些视频后,数据压缩不仅允许我们压缩数据,因而使用较少的计算机内存或磁盘空间,但它也让我们加快我们的学习算法。

 

在许多及其学习问题中,如果我们能将数据可视化,我们便能寻找到一个更好的解决方案,降维可以帮助我们。降维的算法只负责减少维数,新产生的特征的意义就必须由我们自己去发现了。

 

 

主成分分析(PCA)是最常见的降维算法。

在 PCA 中,我们要做的是找到一个方向向量(Vector direction),当我们把所有的数据都 投射到该向量上时,我们希望投射平均均方误差能尽可能地小。方向向量是一个经过原点的向量,而投射误差是从特征向量向该方向向量作垂线的长度。  



下面给出主成分分析问题的描述:

问题是要将 n 维数据降至 k 维,目标是找到向量u(1),u(2),...,u(k)使得总的投射误差最小。

主成分分析与线性回顾的比较:

主成分分析与线性回归是两种不同的算法。主成分分析最小化的是投射误差(ProjectedError),而线性回归尝试的是最小化预测误差。线性回归的目的是预测结果,而主成分分析不作任何预测。  



注意:PCA和线性回归是不同的,上图中,左边的是线性回归的误差(垂直于横轴投影),右边则是主要成分分析的误差(垂直于红线投影)。

 

 

PCA 技术的一大好处是对数据进行降维的处理。我们可以对新求出的“主元”向量的重要性进行排序,根据需要取前面最重要的部分,将后面的维数省去,可以达到降维从而简化

模型或是对数据进行压缩的效果。同时最大程度的保持了原有数据的信息。PCA 技术的一个很大的优点是,它是完全无参数限制的。在 PCA 的计算过程中完全不

需要人为的设定参数或是根据任何经验模型对计算进行干预,最后的结果只与数据相关,与用户是独立的。 这也是它的缺点。

 

PCA主成分分析算法





PCA 减少 n 维到 k 维:

第一步是均值归一化。我们需要计算出所有特征的均值,然后令 xj= xj -μj。如果特征是在不同的数量级上,我们还需要将其除以标准差 σ2。

第二步是计算协方差矩阵(covariancematrix)Σ:



第三步是计算协方差矩阵 Σ 的特征向量(eigenvectors):在 Octave 里我们可以利用奇异值分解(singularvalue decomposition)来求解,[U, S, V]=svd(sigma)。





对于一个 n×n 维度的矩阵,上式中的 U 是一个具有与数据之间最小投射误差的方向向量构成的矩阵。如果我们希望将数据从 n 维降至 k 维,我们只需要从 U 中选取前 K 个向量,获得一个 n×k 维度的矩阵,我们用Ureduce 表示,然后通过如下计算获得要求的新特征向量z(i):



其中 x 是 n×1 维的,因此结果为 k×1 维度。注,我们不对方差特征进行处理。

 





主要成分分析是减少投射的平均均方误差:

训练集的方差为:


我们希望在平均均方误差与训练集方差的比例尽可能小的情况下选择尽可能小的 K 值。如果我们希望这个比例小于 1%,就意味着原本数据的偏差有99%都保留下来了,如果

我们选择保留 95%的偏差,便能非常显著地降低模型中特征的维度了。我们可以先令 K=1,然后进行主要成分分析,获得 Ureduce 和 z,然后计算比例是否小于

1%。如果不是的话再令 K=2,如此类推,直到找到可以使得比例小于 1%的最小 K 值(原因是各个特征之间通常情况存在某种相关性)。

 

还有一些更好的方式来选择 K,当我们在 Octave 中调用“svd”函数的时候,我们获得三个参数:[U, S, V] =svd(sigma)。



其中的 S 是一个 n×n 的矩阵,只有对角线上有值,而其它单元都是 0,我们可以使用这个矩阵来计算平均均方误差与训练集方差的比例:



也就是:


在压缩过数据后,我们可以采用如下方法来近似地获得原有的特征:





PCA好的应用



PCA坏的应用



上图也就是说,用PCA防止过拟合是不好的,它可能会工作,但是不是一个处理过拟合问题好的方法,应该选择用归一化处理,使用PCA算法而不是原数据会导致部分重要特征的丢失。

 

 

 

假使我们正在针对一张 100×100 像素的图片进行某个计算机视觉的机器学习,即总共有 10000 个特征。

1. 第一步是运用主要成分分析将数据压缩至 1000 个特征

2. 然后对训练集运行学习算法

3. 在预测时,采用之前学习而来的 Ureduce 将输入的特征 x 转换成特征向量 z,然后再进行预测

注:如果我们有交叉验证集合测试集,也采用对训练集学习而来的 Ureduce。错误的主要成分分析情况:一个常见错误使用主要成分分析的情况是,将其用于减少过拟合(减少了特征的数量)。这样做非常不好,不如尝试归一化处理。原因在于主要成分分析只是近似地丢弃掉一些特征,它并不考虑任何与结果变量有关的信息,因此可能会丢失非常重要的特征。然而当我们进行归一化处理时,会考虑到结果变量,不会丢掉重要的数据。另一个常见的错误是,默认地将主要成分分析作为学习过程中的一部分,这虽然很多时

候有效果,最好还是从所有原始特征开始,只在有必要的时候(算法运行太慢或者占用太多内存)才考虑采用主要成分分析。  
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  机器学习