您的位置：首页 > 其它

【论文阅读：文章中心词抽取】TextRank: Bringing Order into Texts - emnlp 2004

2015-12-01 21:04 274 查看

原文可以从这里下载：http://pan.baidu.com/s/1bonMgVl

综述：
textrank的经典开山文章。用处在于：1. 抽取文章关键词；2. 抽取文摘

具体内容：

1 抽取文章关键词的几种思路：
（1）简单统计方法：tf/idf
（2）有监督的学习方法：将关键词抽取问题转成分类问题，用分类模型，如：朴素贝叶斯，来解决
（3）无监督的学习方法
（3-1）graph-based方法，即本文方法
（3-2）LDA主题模型

2 textrank的基本方法
找出节点（要抽取什么东西？）、找出节点之间的关联（文本词语之间的语法语义关系或者简单的同现关系），从而构成图（有向图或者无向图）。
图的pagerank或者hits算法是固定的，套用就行了。

3 关键词抽取
节点：可以是word、可以是ngram、可以是任何语言单位。本文作者在实验中用的是word
边：即word之间的关系，可以通过句法分析等找到word之间的语法、语义联系。本文作者用的就是“同现”关系，即在长度为N的窗口中同现的词语。
数据处理：需要去掉停用词，甚至只采用某些词性的词。
模型变形：可以是有向图、也可以是无向图，边的权重也可以根据实际需要设定。

个人评述：总感觉作者的方法会比较偏向于高频词。

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航