【论文阅读:文章中心词抽取】TextRank: Bringing Order into Texts - emnlp 2004
2015-12-01 21:04
274 查看
原文可以从这里下载:http://pan.baidu.com/s/1bonMgVl
综述:
textrank的经典开山文章。用处在于:1. 抽取文章关键词;2. 抽取文摘
具体内容:
1 抽取文章关键词的几种思路:
(1)简单统计方法:tf/idf
(2)有监督的学习方法:将关键词抽取问题转成分类问题,用分类模型,如:朴素贝叶斯,来解决
(3)无监督的学习方法
(3-1)graph-based方法,即本文方法
(3-2)LDA主题模型
2 textrank的基本方法
找出节点(要抽取什么东西?)、找出节点之间的关联(文本词语之间的语法语义关系或者简单的同现关系),从而构成图(有向图或者无向图)。
图的pagerank或者hits算法是固定的,套用就行了。
3 关键词抽取
节点:可以是word、可以是ngram、可以是任何语言单位。本文作者在实验中用的是word
边:即word之间的关系,可以通过句法分析等找到word之间的语法、语义联系。本文作者用的就是“同现”关系,即在长度为N的窗口中同现的词语。
数据处理:需要去掉停用词,甚至只采用某些词性的词。
模型变形:可以是有向图、也可以是无向图,边的权重也可以根据实际需要设定。
个人评述:总感觉作者的方法会比较偏向于高频词。
综述:
textrank的经典开山文章。用处在于:1. 抽取文章关键词;2. 抽取文摘
具体内容:
1 抽取文章关键词的几种思路:
(1)简单统计方法:tf/idf
(2)有监督的学习方法:将关键词抽取问题转成分类问题,用分类模型,如:朴素贝叶斯,来解决
(3)无监督的学习方法
(3-1)graph-based方法,即本文方法
(3-2)LDA主题模型
2 textrank的基本方法
找出节点(要抽取什么东西?)、找出节点之间的关联(文本词语之间的语法语义关系或者简单的同现关系),从而构成图(有向图或者无向图)。
图的pagerank或者hits算法是固定的,套用就行了。
3 关键词抽取
节点:可以是word、可以是ngram、可以是任何语言单位。本文作者在实验中用的是word
边:即word之间的关系,可以通过句法分析等找到word之间的语法、语义联系。本文作者用的就是“同现”关系,即在长度为N的窗口中同现的词语。
数据处理:需要去掉停用词,甚至只采用某些词性的词。
模型变形:可以是有向图、也可以是无向图,边的权重也可以根据实际需要设定。
个人评述:总感觉作者的方法会比较偏向于高频词。
相关文章推荐
- 2015.12.1
- iOS 学习笔记三【segmentedControl分段控制器详细使用方法】
- asp.net网站Application_Start疑是不执行的现象
- centos启动流程[转]
- JS温习:基础(四) 继承,原型
- 究竟什么样的公有云最适合开发者,Forrester 告诉你真相!
- 7-4
- Copy Books
- Android stadio导入eclipse项目
- Linux作业控制
- 软件测试面试问题
- Beta版冲刺Day1
- python 文件操作总结
- pandas行转列
- CF414B、CF415DMashmokh and ACM【二维DP】
- GCD线程
- 算法导论22.3深度优先搜索 练习总结
- MFC如何使控件大小随着对话框大小自动调整
- android CHMOD命令用法
- 复制或粘贴内容到含有隐藏单元格的区域时如何只复制或粘贴可见单元格