看论文
2016-04-01 10:46
281 查看
看了一些论文:《汉语自动句法分析的理论和方法》、
《词语位置加权TextRank的关键词抽取研究》、
《利用统计量和语言学规则提取多字词表达》、
《基于超图的文本摘要与关键词协同抽取研究》、
《基于最大熵的依存句法分析》、
《基于序列标注的中文依存句法分析方法》、
《中文维基百科的实体分类研究》。
第一篇论文是句法分析的一个Tutorial。
TextRank由PageRank而来,它利用投票机制来确定某个词的权重即重要度,是一个非监督方法,不需要语料库。但我在微博上看到有人说TextRank在实用里复杂度过高,用的不多。
第三篇论文说的是互信息和熵。互信息体现的是两个变量之间的相互依赖程度。熵指的是不确定性,所以可以用左右熵来判别边界。论文里给出了公式。
第四篇论文是单文本摘要,把一篇文本按句子构造图。顶点是一个词。边是句子。句子的权重用一个称为“主体信息密度”的公式定义。然后用PageRank方法在图上游走,定义一个阈值(0.85),当相邻两次迭代的绝对值之差小于阈值时停止游走,排序输出得分最高的若干词为关键词,得分最高的若干句子为摘要。论文里没说词的权重的定义方法,应该是初始化为一个相同的值。
第五篇论文用的是最大生成树方法,句法关系权重用最大熵模型来计算。
第六篇论文是把依存文法转换成标注问题。两个词之间的依存关系主要有两个因素:方向和距离。论文里用形式:【+/-】d POS 来表示依存关系。+/-表示方向。d是距离,指从某个方向开始第d个具有相同词性为POS的词。论文里把通常使用的词性分为了两层,粗粒度和细粒度,比如n和nr。在支配词不是名词时,用粗粒度计算d;在支配词是名词时,用细粒度计算d。这样就可以用标注来表示计算依存关系。用crf模型训练,用viterbi算法解码。
第七篇论文是把中文维基百科的页面里的信息框、分类框和摘要中的相关内容作为三个基本特征,用LibSVM计算,对中文维基百科条目进行了实体分类。
《词语位置加权TextRank的关键词抽取研究》、
《利用统计量和语言学规则提取多字词表达》、
《基于超图的文本摘要与关键词协同抽取研究》、
《基于最大熵的依存句法分析》、
《基于序列标注的中文依存句法分析方法》、
《中文维基百科的实体分类研究》。
第一篇论文是句法分析的一个Tutorial。
TextRank由PageRank而来,它利用投票机制来确定某个词的权重即重要度,是一个非监督方法,不需要语料库。但我在微博上看到有人说TextRank在实用里复杂度过高,用的不多。
第三篇论文说的是互信息和熵。互信息体现的是两个变量之间的相互依赖程度。熵指的是不确定性,所以可以用左右熵来判别边界。论文里给出了公式。
第四篇论文是单文本摘要,把一篇文本按句子构造图。顶点是一个词。边是句子。句子的权重用一个称为“主体信息密度”的公式定义。然后用PageRank方法在图上游走,定义一个阈值(0.85),当相邻两次迭代的绝对值之差小于阈值时停止游走,排序输出得分最高的若干词为关键词,得分最高的若干句子为摘要。论文里没说词的权重的定义方法,应该是初始化为一个相同的值。
第五篇论文用的是最大生成树方法,句法关系权重用最大熵模型来计算。
第六篇论文是把依存文法转换成标注问题。两个词之间的依存关系主要有两个因素:方向和距离。论文里用形式:【+/-】d POS 来表示依存关系。+/-表示方向。d是距离,指从某个方向开始第d个具有相同词性为POS的词。论文里把通常使用的词性分为了两层,粗粒度和细粒度,比如n和nr。在支配词不是名词时,用粗粒度计算d;在支配词是名词时,用细粒度计算d。这样就可以用标注来表示计算依存关系。用crf模型训练,用viterbi算法解码。
第七篇论文是把中文维基百科的页面里的信息框、分类框和摘要中的相关内容作为三个基本特征,用LibSVM计算,对中文维基百科条目进行了实体分类。
相关文章推荐
- 时间,日期格式化以及 格式化时间戳
- ubuntu 14.04 截图工具
- 从键盘输入中文显示其国标码和Unicode码
- easyUI单元格合并自定义封装
- 新增控件汇总
- JSON.parse()和JSON.stringify()
- 对ByteArrayInputStream/ByteArrayOutputStream类的应用里的transform函数的复用
- 打印出字符串对应的Unicode编码和GB2312编码
- 移动端web app自适应布局探索与总结
- HttpApplication IHttpAsyncHandler, IHttpHandler, IComponent, IDisposable ps url System.Web.dll
- tomcat jar包加载顺序
- linux下qt的安装
- HTTPS原理详解
- hdu4786Fibonacci Tree(最小生成树)
- Java23中设计模式一:单例模式
- 登录页面重定向后页面样式丢失
- 登录页面重定向后页面样式丢失
- Android总结 - System UI Mode
- 32位和64位系统区别
- 详解一道C++笔试题,考察重载、覆盖、多态