您的位置:首页 > 其它

笔记-2003-Chinese Word Segmentation as Character Tagging

2012-11-06 17:54 197 查看
Chinese Word Segmentation as Character Tagging

不知道这篇是不是上一篇的扩写,发表在不同杂志上

作者:Nianwen Xue

单位:Inst. for Research in Cognitive Science

出处:Computational Linguistics and Chinese Language Processing Vol. 8, No. 1, February 2003, pp.29-48 The Association for Computational Linguistics and Chinese Language Processing

主要内容:LL,LR,MM,RR;要解决MEMM的转移概率的问题

这篇论文报告了中文分词使用有监督机器学习方法的效果。训练语料由人工标注完成,效果 P 95.01%,R 94.94,训练语料大小237K。

找分词边界不是问题,问题是找到无歧义的分词边界。

由此我们可以看到,Xue在写这篇论文时,其实目的是为了解决歧义。捎带解决OOV。但是,实验中却强调了OOV,以至于后来的论文,这种字序列的学习方法都用于解决OOV

文章重点强调了分词歧义的问题。论文中提到大篇幅提到三种分词歧义,一个是交搭歧义、二是组合歧义、三是因为语义理解产生的歧义(也是组合),用一段说明了OOV的影响。

FMM会因为OOV的增加急剧下降,但是MEMM没有。

标记是 LL,LR,MM,RR
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐