您的位置:首页 > 其它

【论文阅读:文章中心词抽取】TextRank: Bringing Order into Texts - emnlp 2004

2015-12-01 21:04 274 查看
原文可以从这里下载:http://pan.baidu.com/s/1bonMgVl

综述:
textrank的经典开山文章。用处在于:1. 抽取文章关键词;2. 抽取文摘

具体内容:

1 抽取文章关键词的几种思路:
(1)简单统计方法:tf/idf
(2)有监督的学习方法:将关键词抽取问题转成分类问题,用分类模型,如:朴素贝叶斯,来解决
(3)无监督的学习方法
(3-1)graph-based方法,即本文方法
(3-2)LDA主题模型

2 textrank的基本方法
找出节点(要抽取什么东西?)、找出节点之间的关联(文本词语之间的语法语义关系或者简单的同现关系),从而构成图(有向图或者无向图)。
图的pagerank或者hits算法是固定的,套用就行了。

3 关键词抽取
节点:可以是word、可以是ngram、可以是任何语言单位。本文作者在实验中用的是word
边:即word之间的关系,可以通过句法分析等找到word之间的语法、语义联系。本文作者用的就是“同现”关系,即在长度为N的窗口中同现的词语。
数据处理:需要去掉停用词,甚至只采用某些词性的词。
模型变形:可以是有向图、也可以是无向图,边的权重也可以根据实际需要设定。

个人评述:总感觉作者的方法会比较偏向于高频词。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: