您的位置：首页 > 其它

论文读书笔记-A text clustering framework for information retrieval

2014-02-18 17:09 369 查看

这篇文章提出了一种针对文本聚类的模型，在这个模型中首先是对文档之间的距离进行语义上的度量，然后是在这个基础上在RBF核函数定义的高维空间上进行映射，最终实现文档聚类。

下面是本文的一些要点：

1、文本聚类的难点

文本聚类中主要涉及到三个方面的内容，一是定义文档的表现形式；二是相似度的度量方式；三是一个划分的标准（一般是用代价函数来衡量）。

在设计模型时存在三个主要的问题：

-维度的数目：文档的表现维度从几十到成百上千不等，有时候用整个词表作为标准，每篇文档的维度就会变得稀疏。一般需要进行维度压缩，常见的方法就是SVD

-相似度度量的定义：两个向量之间的相似度定义最常见的方式如下

-聚类算法的选择：主要包括kmeans,SOM,EM算法等，有人也提出了基于图论的方法，例如Document index graph

2、文档间距离度量

和常见的文档用一个向量表示不同，这里用一个向量对表示文档，记为v’和v’’。其中v’是对文档中词的表示，也就是通常见到的文档用词向量表示的形式，在这里进行归一化操作