您的位置:首页 > 编程语言 > Go语言

Good-turning估计

2016-04-03 14:59 274 查看
吴军数学之美又看了一遍,写的有深有浅,比如这次,有不同的感觉。

统计预言模型的数据稀疏问题解决方案–古德图灵估计

接上

这里引入Good-turning估计

Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。

假定在语料库中出现r次数的词有Nr个,则有

N=∑r=1∞rNr

当r较小时,我们使用dr代替r,这里dr<r,dr的值可由下式表示

dr=(r+1)Nr+1Nr

这样可以保证

N=∑rdrNr

这里我们考虑一个经验,一般来说r越大,词的数量Nr就越小,即验证了上述dr<r且d0>0.这样的代替可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: