您的位置：首页 > 其它

聚类评估

2012-10-17 10:42 141 查看

目的

估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。

评价方法

一、估计聚类趋势

二、确定数据集中的簇数

　　1. 经验方法

　　2. 肘方法

　　3. 使用信息准则或信息论的方法

　　4. 交叉验证

三、测定聚类质量

　　1. 外在方法

　　2. 内在方法

　　　　1. 凝聚度（cohesion）

　　　　$\text{cohesion}(C_i) = \sum_{x \in C_i, y \in C_i} \text{dist}(x, y)$

　　　　2. 分离度（separation）

　　　　$\text{separation}(C_i, C_j) = \sum_{x \in C_i, y \in C_j} \text{dist}(x, y)$

　　　　3. 轮廓系数（silhousette coefficient）：考察簇的分离情况和簇的紧凑情况。

　　　　　　(1) 簇的紧凑性：

　　　　　　　　$ a(o) = \frac{\sum_{o^{'} \in C_i, o^{'} \neq o} \text{dist}(o^{'}, o)}{|C_i|-1} $

　　　　　　(2) 簇的分离程度：

　　　　　　　　$ b(o) = {\text{min}}_{C_j: 1 \le j \le k, j \neq i} \{ \frac{\sum_{o^{'} \in C_j} \text{dist}(o^{'}, o)}{|C_j|} \} $

　　　　　　(3) 对象 $o$ 的轮廓系数：

　　　　　　　　$ s(o) = \frac{b(o) - a(o)}{\text{max}\{a(o), b(o)\}} $

　　　　　　a. 考察簇的拟合性：计算簇中所有对象的轮廓系数的平均值

　　　　　　b. 考察聚类的质量：计算数据集中所有对象的轮廓系数的平均值

　　　　4. 簇内变差/簇内方差和：

　　　　　　　　$ E = \sum_{i=1}^k \sum_{p \in C_i} \text{dist}{(p, c_i)}^2 $

　　　　5. 簇内方差和（variance）

　　　　6. 簇的半径（radius）：簇内所有点到质心的最大距离

　　　　7. 簇的直径（diameter）：簇内任意两个点之间的最大距离

　　　　8. 簇的密度（density）

参考资料：

1. 《数据挖掘：概念与技术》第10章，第6节

2. 《大数据：互联网大规模数据挖掘与分布式处理》：第7章

3. http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航