聚类评估
2012-10-17 10:42
141 查看
目的
估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。评价方法
一、估计聚类趋势
二、确定数据集中的簇数
1. 经验方法2. 肘方法
3. 使用信息准则或信息论的方法
4. 交叉验证
三、测定聚类质量
1. 外在方法2. 内在方法
1. 凝聚度(cohesion)
$\text{cohesion}(C_i) = \sum_{x \in C_i, y \in C_i} \text{dist}(x, y)$
2. 分离度(separation)
$\text{separation}(C_i, C_j) = \sum_{x \in C_i, y \in C_j} \text{dist}(x, y)$
3. 轮廓系数(silhousette coefficient):考察簇的分离情况和簇的紧凑情况。
(1) 簇的紧凑性:
$ a(o) = \frac{\sum_{o^{'} \in C_i, o^{'} \neq o} \text{dist}(o^{'}, o)}{|C_i|-1} $
(2) 簇的分离程度:
$ b(o) = {\text{min}}_{C_j: 1 \le j \le k, j \neq i} \{ \frac{\sum_{o^{'} \in C_j} \text{dist}(o^{'}, o)}{|C_j|} \} $
(3) 对象 $o$ 的轮廓系数:
$ s(o) = \frac{b(o) - a(o)}{\text{max}\{a(o), b(o)\}} $
a. 考察簇的拟合性:计算簇中所有对象的轮廓系数的平均值
b. 考察聚类的质量:计算数据集中所有对象的轮廓系数的平均值
4. 簇内变差/簇内方差和:
$ E = \sum_{i=1}^k \sum_{p \in C_i} \text{dist}{(p, c_i)}^2 $
5. 簇内方差和(variance)
6. 簇的半径(radius):簇内所有点到质心的最大距离
7. 簇的直径(diameter):簇内任意两个点之间的最大距离
8. 簇的密度(density)
参考资料:
1. 《数据挖掘:概念与技术》第10章,第6节2. 《大数据:互联网大规模数据挖掘与分布式处理》:第7章
3. http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html
相关文章推荐
- 聚类结果的评估指标及其JAVA实现
- 为 Mahout 增加聚类评估功能
- 聚类︱python实现 六大 分群质量评估指标(兰德系数、互信息、轮廓系数)
- 聚类的评估
- 7.9 聚类模型评估
- 聚类评估算法-轮廓系数(Silhouette Coefficient )
- 数据分析 第六篇:聚类的评估(簇数确定和轮廓系数)和可视化
- 笔记︱多种常见聚类模型以及分群质量评估(聚类注意事项、使用技巧)
- 【总结】分类、聚类的评估指标
- 聚类性能评估
- Python聚类算法之凝聚层次聚类实例分析
- 语言模型如何评估
- stat_模型评估方法
- 老李分享:系统可用性评估
- 机器学习--应用:评估帖子相关性
- 基于K-Means的文本聚类
- 聚类(2)——层次聚类 Hierarchical Clustering
- 网络健康度自动评估工具,分享顶极技术
- 机器学习公开课笔记(8):k-means聚类和PCA降维
- 看图识“字”(3)-评估数据水平