您的位置:首页 > 其它

笔记-2004-基于无指导学习策略的无词表条件下的汉语自动分词

2012-10-21 18:43 225 查看
基于无指导学习策略的无词表条件下的汉语自动分词

孙茂松,肖明,邹嘉彦

清华大学、香港城市大学

2004年6月计算机学报

互信息、t-测试差、线性叠加、波峰波谷

由于这个时候还没有SIGHAN2005,所以不好评说这个的效果,但是思想很好

互信息,用于检查两个字的结合紧密程度,注意,互信息是二元的,多于二元的都不行。

t-测试差的作用也是这样,但是公式不同,都是越大,结合越紧密

然后,md=f( 互信息)+a*g(t-测试差);

用md去进行比较,一句话的md有大有小,连起来刚好会形成一个波浪线,波峰则为连接,波谷则为断开。

最近这4篇文章都为无监督学习分词
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: