聚类评价指标(一)
2015-10-02 16:46
295 查看
外部评价法
外部评价方法意味着评判聚类算法的结果是基于一种预先指定的结构。这种结构反映了人们对数据集聚类结构的直观认识。每个数据项的分类标记已知。下面介绍两种常用的
外部评价法。
1) F-measure
它组合了信息检索中查准率( precision) 与查全率( recall) 的思想来进行聚类评价。一个聚类j 及与此相关的分类i 的precision 与recall 定义为
P=precision(i,j)=N ij /N i
R=recall(i,j)=N ij /N j
其中: \(N_{ij}\)是在聚类j 中分类i 的数目;\( N_j\)是聚类j 中所有对象的数目; \( N_i\) 是分类i 中所有对象的数目。分类i 的F-measure 定义为
F(i)=2PR(P+R)
对分类i 而言, 哪个聚类的F-measure 值高, 就认为该聚类代表分类i 的映射。换句话说, F-measure 可看成分类i 的评判分值。对聚类结果来说, 其总F-measure 可由每个分类i 的F-measure加权平均得到:
F=\frac{\sum_i{[|i| \cdot F(i)]}{\sum_i{|i|}}}
其中: |i|为分类i 中所有对象的数目。
2) Rand 指数( index) 和Jaccard 系数( coefficient)
设数据集X 的一个聚类结构为C ={C1 , C2 , …, Cm} , 数据集已知的划分为P ={ P1 , P2 , …, Ps } , 可通过比较C 和P 以及邻近矩阵与P 来评价聚类的质量。对数据集中任一对点( Xv, Xu) 计算下列项 :
SS———如果两个点属于C 中同一簇, 且P 中同一组;
SD———如果两个点属于C 中同一簇, 但P 中不同组;
DS———如果两个点不属于C 中同一簇, 而P 中属同一组;
DD———如果两个点不属于C 中同一簇, 且P 中不同组。
设a、b、c、d 分别表示SS、SD、DS、DD 的数目, 则\(a +b + c +d=M\)为数据集中所有对的最大数, 即\(M=N( N- 1) /2\)。其中:N为数据集中点的总数。C 与P 之间的相似程度可由如下有效性指数定义:
Rand 指数
R=(a+d)/M
Jaccard 系数
J=a/(a+b+c)
上述两指数取值均为[ 0, 1] 。当m = s 时, 有最大值。其余指数定义以及邻近矩阵与划分P 的比较方法可以参考文献 。
内部评价法
内部评价方法是利用数据集的固有特征和量值来评价一个聚类算法的结果, 数据集的结构未知 。
Cophenetic 相关系数
对层次聚类算法来说, 其产生的层次图可用Cophenetic 矩阵Pc表示, 矩阵中元素Pc ( i, j 表示数据xi和xj首次在同一个簇中出现的邻近层, 则可以定义一个Cophenetic 相关系数来度量Pc与邻近矩阵P 的相似程度:
CPCC=11M ∑ N−1 i=1 ∑ N j=i+1 d 2 ij −μ 2 p − − − − − − − − − − − − − − − − − − − − √ ⋅1M ∑ N−1 i=1 ∑ N j=i+1 d ij c ij −μ P μ C 1M ∑ N−1 i=1 ∑ N j=i+1 c 2 ij −μ 2 C − − − − − − − − − − − − − − − − − − − − √
−1≤CPCC≤1
其中: \(M= N( N- 1) /2\); N为数据集中点的总数; μP 和μc 分别是矩阵Pc 与P 的均值; dij 和cij分别是矩阵Pc 与P 中元素( i,j) 。CPCC 的取值为[ - 1, 1] , 其接近于0 时说明两个矩阵具有较大的相似性。
Huberts \(\Gamma\)统计
对包含k 个簇的单个聚类结果C, 其质量评价可通过比较C 与邻近矩阵P 之间的一致性程度进行。这个方法定义的指数为Huberts \(\Gamma\)统计。
Γ=1M ∑ i=1 N−1 ∑ j=i+1 N X(i,j)Y(i,j)
其中: X 为数据集矩阵; 矩阵Y 定义为
\[ Y( i, j) =
\begin{cases}
1, & \mbox{if } x_i \mbox{ and } x_j \mbox{ belong to different clusters; }i, j =1, …, N \\
0, & \mbox{otherwise}
\end{cases} \]
\(\Gamma\)的值越大, 表明X 与Y 之间的相似性越大。
转自:http://blog.sciencenet.cn/blog-798597-677909.html
外部评价方法意味着评判聚类算法的结果是基于一种预先指定的结构。这种结构反映了人们对数据集聚类结构的直观认识。每个数据项的分类标记已知。下面介绍两种常用的
外部评价法。
1) F-measure
它组合了信息检索中查准率( precision) 与查全率( recall) 的思想来进行聚类评价。一个聚类j 及与此相关的分类i 的precision 与recall 定义为
P=precision(i,j)=N ij /N i
R=recall(i,j)=N ij /N j
其中: \(N_{ij}\)是在聚类j 中分类i 的数目;\( N_j\)是聚类j 中所有对象的数目; \( N_i\) 是分类i 中所有对象的数目。分类i 的F-measure 定义为
F(i)=2PR(P+R)
对分类i 而言, 哪个聚类的F-measure 值高, 就认为该聚类代表分类i 的映射。换句话说, F-measure 可看成分类i 的评判分值。对聚类结果来说, 其总F-measure 可由每个分类i 的F-measure加权平均得到:
F=\frac{\sum_i{[|i| \cdot F(i)]}{\sum_i{|i|}}}
其中: |i|为分类i 中所有对象的数目。
2) Rand 指数( index) 和Jaccard 系数( coefficient)
设数据集X 的一个聚类结构为C ={C1 , C2 , …, Cm} , 数据集已知的划分为P ={ P1 , P2 , …, Ps } , 可通过比较C 和P 以及邻近矩阵与P 来评价聚类的质量。对数据集中任一对点( Xv, Xu) 计算下列项 :
SS———如果两个点属于C 中同一簇, 且P 中同一组;
SD———如果两个点属于C 中同一簇, 但P 中不同组;
DS———如果两个点不属于C 中同一簇, 而P 中属同一组;
DD———如果两个点不属于C 中同一簇, 且P 中不同组。
设a、b、c、d 分别表示SS、SD、DS、DD 的数目, 则\(a +b + c +d=M\)为数据集中所有对的最大数, 即\(M=N( N- 1) /2\)。其中:N为数据集中点的总数。C 与P 之间的相似程度可由如下有效性指数定义:
Rand 指数
R=(a+d)/M
Jaccard 系数
J=a/(a+b+c)
上述两指数取值均为[ 0, 1] 。当m = s 时, 有最大值。其余指数定义以及邻近矩阵与划分P 的比较方法可以参考文献 。
内部评价法
内部评价方法是利用数据集的固有特征和量值来评价一个聚类算法的结果, 数据集的结构未知 。
Cophenetic 相关系数
对层次聚类算法来说, 其产生的层次图可用Cophenetic 矩阵Pc表示, 矩阵中元素Pc ( i, j 表示数据xi和xj首次在同一个簇中出现的邻近层, 则可以定义一个Cophenetic 相关系数来度量Pc与邻近矩阵P 的相似程度:
CPCC=11M ∑ N−1 i=1 ∑ N j=i+1 d 2 ij −μ 2 p − − − − − − − − − − − − − − − − − − − − √ ⋅1M ∑ N−1 i=1 ∑ N j=i+1 d ij c ij −μ P μ C 1M ∑ N−1 i=1 ∑ N j=i+1 c 2 ij −μ 2 C − − − − − − − − − − − − − − − − − − − − √
−1≤CPCC≤1
其中: \(M= N( N- 1) /2\); N为数据集中点的总数; μP 和μc 分别是矩阵Pc 与P 的均值; dij 和cij分别是矩阵Pc 与P 中元素( i,j) 。CPCC 的取值为[ - 1, 1] , 其接近于0 时说明两个矩阵具有较大的相似性。
Huberts \(\Gamma\)统计
对包含k 个簇的单个聚类结果C, 其质量评价可通过比较C 与邻近矩阵P 之间的一致性程度进行。这个方法定义的指数为Huberts \(\Gamma\)统计。
Γ=1M ∑ i=1 N−1 ∑ j=i+1 N X(i,j)Y(i,j)
其中: X 为数据集矩阵; 矩阵Y 定义为
\[ Y( i, j) =
\begin{cases}
1, & \mbox{if } x_i \mbox{ and } x_j \mbox{ belong to different clusters; }i, j =1, …, N \\
0, & \mbox{otherwise}
\end{cases} \]
\(\Gamma\)的值越大, 表明X 与Y 之间的相似性越大。
转自:http://blog.sciencenet.cn/blog-798597-677909.html
相关文章推荐
- 《zw版·delphi与halcon系列原创教程》zw版_THOperatorSetX控件函数列表 v11中文增强版
- 2013 ACM-ICPC吉林通化全国邀请赛 && HDU 4493 Tutor (水)
- AOJ 2456 Usoperanto (树形dp)解题报告
- Oracle表的创建和管理
- XBMC 使用 Android StageFright 硬件解码
- 哥哥牟:诺拉的死亡是由于寻找食物的粪便!
- Tomcat配置虚拟目录、多域名、多个Http监听端口的方式
- linq 不同对象集合 交集 差集
- 3D游戏中人物换装解决方案
- 股票F10
- ZOJ 3826 Hierarchical Notation
- 【nodemailer】 之邮件附件
- 非排序寻找从小到大第3400个数
- pch文件 解决每个文件都需要重复引入的问题
- Linux 命令 - tail: 打印文件的结尾部分
- 【 D3.js 入门系列 --- 0 】 简介及安装
- hdu1048 The Hardest Problem Ever
- 面试题24:二叉搜索树的后序遍历序列
- UVa12171 Sculpture
- ocp-39