您的位置：首页 > 其它

工作小结20140504-话题发现

2014-05-04 23:10 274 查看

         整个4月份主要工作是整理关于话题发现(Topic Detection)的资料，主要看了一些论文，看得不是很系统，也不是很全面，终究还是凑足一万字交给老师了。

         大致看了一些论文，主流方法感觉还是主题模型(Topic Model)，主题、话题傻傻分不清楚啊！Wikipedia翻译的是主题模型，所以当与Model连用时，就权且翻译为主题吧，但英语真心没差。

        话题发现，先谈谈其起源，最早是源于1996年由DARPA发起的TDT(Topic Detection and Tracking)项目，有UMass Amherst，CMU等参与，最后一届(2005)TDT项目的评测有国内的东北大学和中科院计算所。项目的背景是研究新闻报道中的话题，关于TDT的详细介绍可以参看J Allan的Topic
detection and tracking pilot study final report。

        TDT项目中的话题定义是事件(Event)或活动(Activity)及其相关事件或活动。但最后TDT项目中的话题就被狭义地理解为事件了。

        TDT项目的任务可以简述为下图：

        TDT项目中的数据是新闻报道(News Story)流，第一个任务是对数据流进行切分(Segmentation)，分割为一篇篇的新闻报道；接下来是话题发现，TDT中使用的多是聚类方法，就是将相似的新闻报道进行聚类得到关于某个话题的报道集，而话题发现步骤又因数据的不同可以分为在线(Online)话题发现和回溯(Retrospective)话题发现；针对在线数据，代表性方法有Single Pass Incremental Clustering(单遍增量聚类)，针对回溯数据，代表性方法有GAC(Group
Average Clustering，基于平均分组的层次聚类方法)。上面的几个任务为最初TDT提出的，后来又添加了首次报道检测(First Story Detection)，报道相关性检测(The link detection)等任务。

         TDT评价指标除了比较常见的准确率、召回率、F值等，还定义了代价函数(Cost Function)。

         TDT项目大约在2005年结束，项目的有关网址：

         TDT评测http://www.itl.nist.gov/iad/mig//tests/tdt/

         TDT语料https://www.ldc.upenn.edu

         TDT算比较早的方法，并且，仔细看与我们所理解的话题发现还不太一样，所以已经有些过时，这两年研究比较多的就是主题模型，主要集中在LDA(Latent Dirichlet Allocation)。主题模型是基于统计学的方法，所以理解起来比较直观，比较有说服力。

        主题模型是将传统的以词项(Term)表示的文档映射到语义空间，用抽象的话题来表示文档，从这个角度看，主题模型是文档的一种降维表示。谈起降维，最初使用的是矩阵分解(代表性的方法是SVD，Singular Value Decomposition，奇异值分解)的方法，这是从线性代数的角度解决的，没有用到统计学方法，所以还算不上真正意义的主题模型。后来引入统计学方法，才逐渐发展为今天的主题模型。

        主题模型认为一篇文档有多个话题组成，而每个话题又可以表示为一组词项的概率分布，按照主题模型的思路，我们要写一篇文章，先要确定一组话题，再确定文档中每一个位置的词，也就是主题模型为我们规定了一篇文档应该如何生成，所以说主题模型是一个生成模型(Generative Model)。我们心中会有疑问，这跟话题如何产生关联，主题前面提到，生成文章要先选话题，这些话题在真实的文档中并不存在，存在的只是一个个的词。实际上我们拿到文章的时候，是生成过程完成后获得的结果，我们要找隐含的话题，就是要将生成过程复现，通过采样来推测生成过程中的话题分布，来达到话题发现的目的。

        主题模型的生成过程可以以文字或图模型描述，如下：

        对语料中的每一篇文档m

        (1) 由超参数α采样主题概率分布θ

        对于每一个主题z

        (2) 有超参数β采样词项概率分布φ

        对文档m中的第n个词

        (3) 由主题分布θ选择隐含主题z‘

        (4) 有词项分布φ生成一个单词w

α和β是Dirichlet分布的参数，通常是固定值且对称分布(symmetric)，用标量表示。 θ表示文档的主题概率分布， φ表示主题的词项概率分布，θ和φ作为多项式分布的参数用于生成主题和单词。z表示主题，w表示单词，M表示文档数目，N表示文档长度。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航