您的位置:首页 > 其它

论文读书笔记-A text clustering framework for information retrieval

2014-02-18 17:09 369 查看
这篇文章提出了一种针对文本聚类的模型,在这个模型中首先是对文档之间的距离进行语义上的度量,然后是在这个基础上在RBF核函数定义的高维空间上进行映射,最终实现文档聚类。

 

下面是本文的一些要点:

1、  文本聚类的难点

文本聚类中主要涉及到三个方面的内容,一是定义文档的表现形式;二是相似度的度量方式;三是一个划分的标准(一般是用代价函数来衡量)。

在设计模型时存在三个主要的问题:

-维度的数目:文档的表现维度从几十到成百上千不等,有时候用整个词表作为标准,每篇文档的维度就会变得稀疏。一般需要进行维度压缩,常见的方法就是SVD

-相似度度量的定义:两个向量之间的相似度定义最常见的方式如下



-聚类算法的选择:主要包括kmeans,SOM,EM算法等,有人也提出了基于图论的方法,例如Document index graph

 

2、  文档间距离度量

和常见的文档用一个向量表示不同,这里用一个向量对表示文档,记为v’和v’’。其中v’是对文档中词的表示,也就是通常见到的文档用词向量表示的形式,在这里进行归一化操作



其中tfk是第k个短语在文档中的出现次数,v’中的权重也就是短语的频率

一篇文档除了能提取出每个短语及其出现的次数外,还能够提取出文档短语在单词表中的概率分布情况,每个短语和一个概率密度函数相关。V’’衡量的就是这种概率分布情况。

空间概率密度函数定义如下:



每个文档首先分割为S个段落,这S维的向量是由短语在对应文档中分布的概率产生的。V’’也就是一个包含nt个值向量,每个向量的维度为S。如下图:





定义好了v’和v’’之后,下面就是分别定义两个文档中对应v’和v’’的距离:



针对V’这里计算的是Minkowski距离,p是参数



针对v’’这里计算的是欧几里得距离

最终两篇文档之间的距离就是这两个距离的加权求和:



Alpha是参数,位于[0,1]

 

3、  kernel k-means

这里的kernel k-means是在基本k-means的基础上加以改进。最主要的变化是用一个函数把元素映射到高维空间



这样得到每个类的中心点计算公式:



文档距离类的距离:



 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐