您的位置：首页 > 其它

语言模型如何评估

2015-11-30 16:02 246 查看

语言模型的性能通常用交叉熵和复杂度（perplexity）来衡量。交叉熵的意义是用该模型对文本识别的难度，或者从压缩的角度来看，每个词平均要用几个位来编码。复杂度的意义是用该模型表示这一文本平均的分支数，其倒数可视为每个词的平均概率。平滑是指对没观察到的N元组合赋予一个概率值，以保证词序列总能通过语言模型得到一个概率值。通常使用的平滑技术有图灵估计、删除插值平滑、Katz平滑和Kneser-Ney平滑。

歧义问题的描述和消除问题是制约计算语言学发展的瓶颈问题．将交叉熵引入计算语言学消岐领域．采用语句的真实语义作为交叉熵的训练集的先验信息，将机器翻译的语义作为测试集后验信息。计算两者的交叉熵，并以交叉熵指导对歧义的辨识和消除．实例表明，该方法简洁有效．易于计算机白适应实现．交叉熵不失为计算语言学消岐的一种较为有效的工具.

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： language model 压缩

相关文章推荐

新的分享

章节导航