您的位置:首页 > 其它

聚类分析

2012-07-24 09:47 239 查看
今天看了一本关于聚类分析的书,看的时候对该书中的一些概念性的东西进行了摘要,现在对其进行归纳总结一下,方便以后查找与学习。

聚类,顾名思义,就是根据一定的区分规则将数据分组为多个类或者簇。对各个类之间的关系进行分析就叫做关联分析。如果预测的变量是离散的,则这类问题就叫做分类,如果是连续的,则称为回归。

聚类根据分类方式可以分为硬聚类和模糊聚类。硬聚类就是将一个数据归为唯一类,而模糊聚类是通过隶属函数来确定每一个数据隶属于各类的程度。举个例子,假如你看到一本书,你觉得它可能是小明或者小红的,让你做一个判断,你说它就是小明的,这就是硬聚类。假如你说40%是小红的,60%的可能性是小明的,这就是软分类,也就是模糊聚类。

聚类根据算法来分可以分为划分聚类算法、层次聚类算法、密度聚类算法、网格聚类算法以及模型聚类算法。划分聚类算法就是对已某一数据集,采用目标函数最小化的策略进行划分为n个类。划分聚类算法主要包括k-means算法(质心)和k-medoids算法(中心)。层次聚类算法就是将数据分成建立簇,形成一棵以簇为节点的数。但是单独用层次聚类的效果特别差,一般都是讲层次方法和其他方法相结合,形成多阶段聚类,改善聚类质量。密度聚类方法是从数据对象的分布密度出发,把密度足够大的区域连接起来。网格方法是把空间量化为有限个单元,然后对量化后的空间进行聚类。基于模型的方法主要有统计学方法和神经网络方法等。高斯混合模型就是基于统计学的方法。

描述聚类的特征主要包括质心、离差矩阵与协方差矩阵以及直径。

数据类型主要包括数据矩阵和相似度矩阵,相似度矩阵式指n个对象两两之间的近似性。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: