机器翻译(待续)
2014-12-09 16:30
204 查看
机器翻译 = 语言模型 + 翻译模型
语言模型如:N元语言模型
N元语言模型
举例,三元语言模型,一个词至于它相邻的2个词有关。
条件概率
P(我吃饭)表示词语组合合理的概率。
P(我吃饭)= P(饭|我吃)*P(我吃)
P(我吃) = P( 吃|我)*P(我)
得到:
P(我吃饭)= P(饭|我吃)*P(吃|我)*p(我);
基础统计概率这样得到:
[统计词频得到]
P(我)= C(我)/C(X) ;
P(吃|我)= C(我X)/ C(我吃)
P(饭|我吃)= C(我吃饭)/ C(我吃X)
在语音识别或者OCR中,如果识别三个字,前两个识别为我吃,
单从第三个字的声音来看,有40%的概率识别为“饭”,有50%的概率识别为“蛋”。
但是P(饭 | 我吃)的概率为50%,P(蛋|我吃)的概率为10%。
综合考虑:
P(我吃饭)= P(饭)* P(饭 | 我吃)=40%*50%
P(我吃蛋)= P(蛋)* P(蛋|我吃) =50%*10%
所以该字被翻译成饭更合适一些。
语言模型如:N元语言模型
N元语言模型
举例,三元语言模型,一个词至于它相邻的2个词有关。
条件概率
P(我吃饭)表示词语组合合理的概率。
P(我吃饭)= P(饭|我吃)*P(我吃)
P(我吃) = P( 吃|我)*P(我)
得到:
P(我吃饭)= P(饭|我吃)*P(吃|我)*p(我);
基础统计概率这样得到:
[统计词频得到]
P(我)= C(我)/C(X) ;
P(吃|我)= C(我X)/ C(我吃)
P(饭|我吃)= C(我吃饭)/ C(我吃X)
在语音识别或者OCR中,如果识别三个字,前两个识别为我吃,
单从第三个字的声音来看,有40%的概率识别为“饭”,有50%的概率识别为“蛋”。
但是P(饭 | 我吃)的概率为50%,P(蛋|我吃)的概率为10%。
综合考虑:
P(我吃饭)= P(饭)* P(饭 | 我吃)=40%*50%
P(我吃蛋)= P(蛋)* P(蛋|我吃) =50%*10%
所以该字被翻译成饭更合适一些。
相关文章推荐
- c++回忆2——《C++大学教程》待续
- 暂存,未命名,未完不待续
- org.apache.commons.digester.Digester使用 [待续]
- 对websharp中aspect的改进(待续)
- mysql优化(未完....待续....)
- 开源的社区系统(待续......)
- jrptlib编程资料整理(一),待续...
- ASP.NET自定义控件组件开发 第一章 待续
- Dos高级应用(待续)
- php常用功能函数(待续..)
- c# 类的基本知识,未完,待续
- (待续)二阶构造与AknView框架的析构
- 我的学习方法观(待续)
- EJB2.0的事务处理(待续)
- 排序学习总结(待续)
- [Silverlight学习笔记]关于Silverlight的Template(待续)
- 《windows程序设计》勘误(备忘ing)待续
- 维修工考试#待续
- 关于个人和团队效率(待续...)
- 树——二叉树之堆(待续...)