您的位置:首页 > 其它

聚类评估

2012-10-17 10:42 141 查看

目的

估计在数据集上进行聚类的可行性和被聚类方法产生的结果的质量。

评价方法

一、估计聚类趋势

二、确定数据集中的簇数

  1. 经验方法

  2. 肘方法

  3. 使用信息准则或信息论的方法

  4. 交叉验证

三、测定聚类质量

  1. 外在方法

  2. 内在方法

    1. 凝聚度(cohesion)

    $\text{cohesion}(C_i) = \sum_{x \in C_i, y \in C_i} \text{dist}(x, y)$

    2. 分离度(separation)

    $\text{separation}(C_i, C_j) = \sum_{x \in C_i, y \in C_j} \text{dist}(x, y)$

    3. 轮廓系数(silhousette coefficient):考察簇的分离情况和簇的紧凑情况。

      (1) 簇的紧凑性:

        $ a(o) = \frac{\sum_{o^{'} \in C_i, o^{'} \neq o} \text{dist}(o^{'}, o)}{|C_i|-1} $

      (2) 簇的分离程度:

        $ b(o) = {\text{min}}_{C_j: 1 \le j \le k, j \neq i} \{ \frac{\sum_{o^{'} \in C_j} \text{dist}(o^{'}, o)}{|C_j|} \} $

      (3) 对象 $o$ 的轮廓系数:

        $ s(o) = \frac{b(o) - a(o)}{\text{max}\{a(o), b(o)\}} $

      a. 考察簇的拟合性:计算簇中所有对象的轮廓系数的平均值

      b. 考察聚类的质量:计算数据集中所有对象的轮廓系数的平均值

    4. 簇内变差/簇内方差和:

        $ E = \sum_{i=1}^k \sum_{p \in C_i} \text{dist}{(p, c_i)}^2 $

    5. 簇内方差和(variance)

    6. 簇的半径(radius):簇内所有点到质心的最大距离

    7. 簇的直径(diameter):簇内任意两个点之间的最大距离

    8. 簇的密度(density)

参考资料:

1. 《数据挖掘:概念与技术》第10章,第6节

2. 《大数据:互联网大规模数据挖掘与分布式处理》:第7章

3. http://nlp.stanford.edu/IR-book/html/htmledition/evaluation-of-clustering-1.html
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: