您的位置:首页 > 其它

看论文

2016-04-01 10:46 281 查看
看了一些论文:《汉语自动句法分析的理论和方法》、

《词语位置加权TextRank的关键词抽取研究》、

《利用统计量和语言学规则提取多字词表达》、

《基于超图的文本摘要与关键词协同抽取研究》、

《基于最大熵的依存句法分析》、

《基于序列标注的中文依存句法分析方法》、

《中文维基百科的实体分类研究》。

第一篇论文是句法分析的一个Tutorial。

TextRank由PageRank而来,它利用投票机制来确定某个词的权重即重要度,是一个非监督方法,不需要语料库。但我在微博上看到有人说TextRank在实用里复杂度过高,用的不多。

第三篇论文说的是互信息和熵。互信息体现的是两个变量之间的相互依赖程度。熵指的是不确定性,所以可以用左右熵来判别边界。论文里给出了公式。

第四篇论文是单文本摘要,把一篇文本按句子构造图。顶点是一个词。边是句子。句子的权重用一个称为“主体信息密度”的公式定义。然后用PageRank方法在图上游走,定义一个阈值(0.85),当相邻两次迭代的绝对值之差小于阈值时停止游走,排序输出得分最高的若干词为关键词,得分最高的若干句子为摘要。论文里没说词的权重的定义方法,应该是初始化为一个相同的值。

第五篇论文用的是最大生成树方法,句法关系权重用最大熵模型来计算。

第六篇论文是把依存文法转换成标注问题。两个词之间的依存关系主要有两个因素:方向和距离。论文里用形式:【+/-】d POS 来表示依存关系。+/-表示方向。d是距离,指从某个方向开始第d个具有相同词性为POS的词。论文里把通常使用的词性分为了两层,粗粒度和细粒度,比如n和nr。在支配词不是名词时,用粗粒度计算d;在支配词是名词时,用细粒度计算d。这样就可以用标注来表示计算依存关系。用crf模型训练,用viterbi算法解码。

第七篇论文是把中文维基百科的页面里的信息框、分类框和摘要中的相关内容作为三个基本特征,用LibSVM计算,对中文维基百科条目进行了实体分类。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: