您的位置:首页 > 其它

语言模型的评估-困惑度

2016-11-21 15:25 155 查看
语言模型评价

语言模型构造完成后,如何确定好坏呢? 目前主要有两种评价方法:
实用方法:通过查看该模型在实际应用(如拼写检查、机器翻译)中的表现来评价,优点是直观、实用,缺点是缺乏针对性、不够客观;

理论方法:迷惑度/困惑度/混乱度(preplexity),其基本思想是给测试集的句子赋予较高概率值的语言模型较好,当语言模型训练完之后,测试集中的句子都是正常的句子,那么训练好的模型就是在测试集上的概率越高越好,公式如下:
                                    


由公式可知,迷惑度越小,句子概率越大,语言模型越好。使用《华尔街日报》训练数据规模为38million
words构造n-gram语言模型,测试集规模为1.5million words,迷惑度如下表所示:


  
                 
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  困惑度 NLP