笔记-2008-An Empirical Comparison of Goodness Measures for Unsupervised CWS with a ~
2012-10-21 16:19
661 查看
An Empirical Comparison of Goodness Measures for Unsupervised Chinese Word Segmentation with a Unified Framework
Hai Zhao Chunyu Kit
City University of Hong Kong
2008年
这篇文章是最之前无监督分词方法的一个比较
主要比较4个指标
Frequency of substring with Reduction (2004年提出)两个重叠的字符串,ABCD,ABC,如果频率相同,则ABC(短的)被认为是redundant word candidate,字串频次必须>1;
Description Length Gain(DLG)没看原文,公式是DLG(x i-j)=L(X) - L(X[ r -> xi-j]+“xi-j”),字面上的理解是:L(x)是x的熵*x的长度;r -> xi-j是把所有的 xi-j用r这个符号替换;+xi-j在全文结尾再加上xi-j这个字符串
Accessor Variety (AV)边界多样性,取一个字符串,左右边界多样性的最小值。单边边界多样性的计算:例如字符串xi-j,其左侧xi-1的type个数,则是左边界多样性,如果type包含句首(换行),每个句首是一个type;同理,右边界。
Boundary Entropy(Branching Entropy,BE)边界熵,h(xi-j)=-取和(p(x|xi-j)logp(x|xi-j))。即传说中的左熵右熵。
测试语料是Sighan2005,四个语料都做了测试,效果最好的是DLG+AV
2007年的时候,也发表了一篇文章,工作基本相同,没有2008年这篇全面。
名字是:Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法,将其加入到CRF中,看结果。
两种方法的核心都是1970年提出的:if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加,这个位置有可能是个边界。
本文使用非监督学习方法:1 COS,不同句子中出现的最长相同子串,子串长度在2-7之间,2 AVS,AV(s)=min{Lav(S),Rav(S)})
监督学习方法是:CRF,特征为6特征,3窗口,与我不一样的地方在于T:数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看,AVS会起到一定的作用,COS作用不大。但是相对于baseline的提高,也仅限于与0.001-5例如从0.945-0.949或0.961-0.963
Hai Zhao Chunyu Kit
City University of Hong Kong
2008年
这篇文章是最之前无监督分词方法的一个比较
主要比较4个指标
Frequency of substring with Reduction (2004年提出)两个重叠的字符串,ABCD,ABC,如果频率相同,则ABC(短的)被认为是redundant word candidate,字串频次必须>1;
Description Length Gain(DLG)没看原文,公式是DLG(x i-j)=L(X) - L(X[ r -> xi-j]+“xi-j”),字面上的理解是:L(x)是x的熵*x的长度;r -> xi-j是把所有的 xi-j用r这个符号替换;+xi-j在全文结尾再加上xi-j这个字符串
Accessor Variety (AV)边界多样性,取一个字符串,左右边界多样性的最小值。单边边界多样性的计算:例如字符串xi-j,其左侧xi-1的type个数,则是左边界多样性,如果type包含句首(换行),每个句首是一个type;同理,右边界。
Boundary Entropy(Branching Entropy,BE)边界熵,h(xi-j)=-取和(p(x|xi-j)logp(x|xi-j))。即传说中的左熵右熵。
测试语料是Sighan2005,四个语料都做了测试,效果最好的是DLG+AV
2007年的时候,也发表了一篇文章,工作基本相同,没有2008年这篇全面。
名字是:Incorporating Global Information into Supervised Learning for Chinese Word Segmentation
本文列举AV、branch entropy两种非监督分词方法,将其加入到CRF中,看结果。
两种方法的核心都是1970年提出的:if the uncertainty of successive tokens increases,then the location is at a border.即当连续字符的不确定性增加,这个位置有可能是个边界。
本文使用非监督学习方法:1 COS,不同句子中出现的最长相同子串,子串长度在2-7之间,2 AVS,AV(s)=min{Lav(S),Rav(S)})
监督学习方法是:CRF,特征为6特征,3窗口,与我不一样的地方在于T:数字、日期、英文、标点、其它。并且是T-1T0T1
从实验结果看,AVS会起到一定的作用,COS作用不大。但是相对于baseline的提高,也仅限于与0.001-5例如从0.945-0.949或0.961-0.963
相关文章推荐
- 论文笔记:LSTM, GRU, Highway and a Bit of Attention: An Empirical Overview for Language Modeling in Speec
- an empirical study of learning rates in deep neural networks for speech recognition 总结
- 【论文笔记】One Millisecond Face Alignment with an Ensemble of Regression Trees
- How to sort an array of hashes into hashes with multiple values for a key?
- RUBER: An Unsupervised Method for Automatic Evaluation of Open-Domain Dialog Systems
- [论文笔记] An Optimized Control Strategy for Load Balancing Based on Live Migration of Virtual Machine (ChinaGrid, 2011)
- Error on line 24 of document : Open quote is expected for attribute "{1}" associated with an eleme
- An unsupervised neural attention model for aspect extraction 读论文笔记
- 【论文笔记】One Millisecond Face Alignment with an Ensemble of Regression Trees
- 人脸特征点定位方法综述 (An Empirical Study of Recent Face Alignment Methods阅读笔记)
- 《An Experimental Comparison of Partitioning Strategies in Distributed Graph Processing》——论文笔记
- Paper Notes: Empirical Comparison of Algorithms for Network Community Detection
- 论文笔记 A Large Contextual Dataset for Classification,Detection and Counting of Cars with Deep Learning
- A multiplier of 0 or a nil second item together with a location for the first attribute creates an i
- Scene is unreachable due to lack of entry points and does not have an identifier for runtime access via -instantiateViewControllerWithIdentifier解决办法
- 笔记-2012-Fast Online Training with Frequency-Adaptive Learning Rates for CWS and New
- 笔记-2009-An Error-Driven Word-Character Hybrid Model for Joint CWS and POS Tagging
- 论文笔记-An Analysis of Deep Neural Network Models for Practical Applications
- 【论文笔记】One Millisecond Face Alignment with an Ensemble of Regression Trees
- Deep patient:An unsupervised representation to predict the future of patient from the electronic