您的位置:首页 > 其它

工作小结20140504-话题发现

2014-05-04 23:10 274 查看
         整个4月份主要工作是整理关于话题发现(Topic Detection)的资料,主要看了一些论文,看得不是很系统,也不是很全面,终究还是凑足一万字交给老师了。

         大致看了一些论文,主流方法感觉还是主题模型(Topic Model),主题、话题傻傻分不清楚啊!Wikipedia翻译的是主题模型,所以当与Model连用时,就权且翻译为主题吧,但英语真心没差。

        话题发现,先谈谈其起源,最早是源于1996年由DARPA发起的TDT(Topic Detection and Tracking)项目,有UMass Amherst,CMU等参与,最后一届(2005)TDT项目的评测有国内的东北大学和中科院计算所。项目的背景是研究新闻报道中的话题,关于TDT的详细介绍可以参看J Allan的Topic
detection and tracking pilot study final report。

        TDT项目中的话题定义是事件(Event)或活动(Activity)及其相关事件或活动。但最后TDT项目中的话题就被狭义地理解为事件了。

        TDT项目的任务可以简述为下图:

                                                                            


        TDT项目中的数据是新闻报道(News Story)流,第一个任务是对数据流进行切分(Segmentation),分割为一篇篇的新闻报道;接下来是话题发现,TDT中使用的多是聚类方法,就是将相似的新闻报道进行聚类得到关于某个话题的报道集,而话题发现步骤又因数据的不同可以分为在线(Online)话题发现和回溯(Retrospective)话题发现;针对在线数据,代表性方法有Single Pass Incremental Clustering(单遍增量聚类),针对回溯数据,代表性方法有GAC(Group
Average Clustering,基于平均分组的层次聚类方法)。上面的几个任务为最初TDT提出的,后来又添加了首次报道检测(First Story Detection),报道相关性检测(The link detection)等任务。

         TDT评价指标除了比较常见的准确率、召回率、F值等,还定义了代价函数(Cost Function)。

         TDT项目大约在2005年结束,项目的有关网址:

         TDT评测http://www.itl.nist.gov/iad/mig//tests/tdt/

         TDT语料https://www.ldc.upenn.edu

         TDT算比较早的方法,并且,仔细看与我们所理解的话题发现还不太一样,所以已经有些过时,这两年研究比较多的就是主题模型,主要集中在LDA(Latent Dirichlet Allocation)。主题模型是基于统计学的方法,所以理解起来比较直观,比较有说服力。

        主题模型是将传统的以词项(Term)表示的文档映射到语义空间,用抽象的话题来表示文档,从这个角度看,主题模型是文档的一种降维表示。谈起降维,最初使用的是矩阵分解(代表性的方法是SVD,Singular Value Decomposition,奇异值分解)的方法,这是从线性代数的角度解决的,没有用到统计学方法,所以还算不上真正意义的主题模型。后来引入统计学方法,才逐渐发展为今天的主题模型。

        主题模型认为一篇文档有多个话题组成,而每个话题又可以表示为一组词项的概率分布,按照主题模型的思路,我们要写一篇文章,先要确定一组话题,再确定文档中每一个位置的词,也就是主题模型为我们规定了一篇文档应该如何生成,所以说主题模型是一个生成模型(Generative Model)。我们心中会有疑问,这跟话题如何产生关联,主题前面提到,生成文章要先选话题,这些话题在真实的文档中并不存在,存在的只是一个个的词。实际上我们拿到文章的时候,是生成过程完成后获得的结果,我们要找隐含的话题,就是要将生成过程复现,通过采样来推测生成过程中的话题分布,来达到话题发现的目的。

        主题模型的生成过程可以以文字或图模型描述,如下:

        对语料中的每一篇文档m

        (1) 由超参数α采样主题概率分布θ

        对于每一个主题z

        (2) 有超参数β采样词项概率分布φ

        对文档m中的第n个词

        (3) 由主题分布θ选择隐含主题z‘

        (4) 有词项分布φ生成一个单词w

                                                                      


        α和β是Dirichlet分布的参数,通常是固定值且对称分布(symmetric),用标量表示。 θ表示文档的主题概率分布, φ表示主题的词项概率分布,θ和φ作为多项式分布的参数用于生成主题和单词。z表示主题,w表示单词,M表示文档数目,N表示文档长度。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: