Good-turning估计
2016-04-03 14:59
274 查看
吴军数学之美又看了一遍,写的有深有浅,比如这次,有不同的感觉。
统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现r次数的词有Nr个,则有
N=∑r=1∞rNr
当r较小时,我们使用dr代替r,这里dr<r,dr的值可由下式表示
dr=(r+1)Nr+1Nr
这样可以保证
N=∑rdrNr
这里我们考虑一个经验,一般来说r越大,词的数量Nr就越小,即验证了上述dr<r且d0>0.这样的代替可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。
统计预言模型的数据稀疏问题解决方案–古德图灵估计
接上
这里引入Good-turning估计
Good-turning的主要思想是从概率的总量中分配少量的比例给零概率项。
假定在语料库中出现r次数的词有Nr个,则有
N=∑r=1∞rNr
当r较小时,我们使用dr代替r,这里dr<r,dr的值可由下式表示
dr=(r+1)Nr+1Nr
这样可以保证
N=∑rdrNr
这里我们考虑一个经验,一般来说r越大,词的数量Nr就越小,即验证了上述dr<r且d0>0.这样的代替可以让数据稀疏度有效的降低,所有词的概率估计会看起来很平滑。
相关文章推荐
- CodeForces 560C Gerald's Hexagon(几何)
- goto gamedev blog
- goto gamedev blog
- 【LeetCode】Agorithms 题集(一)
- Codeforces 598D Igor In the Museum 离线处理+bfs
- 各种大数模板
- 一步一步利用django创建博客应用(五)
- 一步一步利用django创建博客应用(四)
- Web墨卡托投影(转) Google Maps地图投影全解析(1):Web墨卡托投影
- 【GOF23设计模式】_单例模式
- 一步一步利用django创建博客应用(三)
- 最大上升子序列(LIS)
- dl.l.google.com无法访问
- “浪潮杯”山东省赛 sdut 3256 BIGZHUGOD and His Friends II
- Django基础
- 一步一步利用django创建博客应用(二)
- 《The Google File System》论文阅读笔记——GFS设计原理
- Goggle浏览器插件:【Adobe Acrobat】把网页转换为PDF
- 分类-1-逻辑回归(Logistic regression)、感知学习算法(perceptron learning algorithm)、牛顿迭代法
- Number spiral diagonals