您的位置：首页 > 其它

概率语言模型 Probabilistic Language Modeling (一) --- 整体简介

2016-02-24 15:12 417 查看

1. Introduction

语言模型的目标就是compute the probability of a sentence or sequence of words:

数学公式很简单，给定一个包含l个词语w1,w2,...,wl的句子W,其

P(W)=P(w1,w2,…,wl)

=p(w1)p(w2|w1)p(w3|w1,w2)...p(wl|w1,w2,...,wl−1)

若是计算上述公式中每个p(wl|w1,w2,...,wl−1)，参数空间过大造成数据稀疏严重。一般采用马尔科夫假设(Markov Assumption)：下一个词的出现仅依赖于它前面的k个词，即

p(wi|w1,w2,...,wi−1)=p(wi|wi−k,...,wi−1)

若

-下一个词的出现只依赖它前面的一个词，即为Bigram model：

p(wi|w1,w2,...,wi−1)=p(wi|wi−1)；

-下一个词的出现依赖它前面的两个词，即为Trigram model：

p(wi|w1,w2,...,wi−1)=p(wi|wi−2,wi−1)

对于上述简化假设，我们称之为N元语言模型(n-Gram),一般来说，其计算公式为:

P(W)=∏l+1i=1p(wi|wi−1i−n+1)

其中wji表示词语序列wi,...,wj

2. Estimating N-gram Probabilities

构造使用语言模型的第一步就是生成每个条件概率p(wi|wi−1i−n+1), 通常使用最大似然估计(Maximum Likelihood Estimate)，即

p(wi|wi−1)=count(wi−1,wi)/count(wi−1)

其中count(wi−1,wi)为词组wi−1,wi的出现频率。

3. Performance Evaluation

一般评价语言模型的性能采用迷惑度/困惑度/混乱度(perplexity)，计算公式为：

PP(W)=2H(W)

H(W)=−1llog2P(W)

其中l为句子W的长度，一般来说Lower perplexity = better model

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航