【NLP】机器翻译常用评价标准 (BLEU & METEOR)
2017-01-05 16:55
316 查看
在评价一个机器翻译系统时,译文的质量好坏无法通过文本形式的输出直观地体现,所以我们需要采用一些适当的量化标准对机器翻译的译文结果进行评价,而这些标准同样可适用于图像/视频描述等领域。
下面分别对两个常用的评价方法进行介绍:[1]
BLEU(Bilingual Evaluation understudy)是一种流行的机器翻译评价指标,用于分析候选译文和参考译文中n元组共同出现的程度,由IBM于2002年提出[2]
对于一个待翻译句子,候选译文可以表示为ci,而对应的一组参考译文可以表示为Si={si1,si2,...,sim}∈S
n-grams表示n个单词长度的词组集合,令ωk表示第k组可能的n-grams
hk(ci)表示ωk在候选译文ci中出现的次数,hk(sij)表示ωk在参考译文sij中出现的次数
BLEU则按下式计算对应语句中语料库层面上的重合精度:
CPn(C,S)=∑i∑kmin(hk(ci),maxj∈mhk(sij))∑i∑khk(ci)
其中k标示了可能存在的n-grams序号
容易看出CPn(C,S)是一个精确度度量,在语句较短时表现更好
所以我们再引入一个惩罚因子BP(Brevity Penalty):
b(C,S)={1e1−lslcif lc>lsif lc≤ls
其中lc表示候选译文ci的长度,ls表示参考译文sij的有效长度(当存在多个参考译文时,选取和lc最接近的长度)
本质上,BLEU是一个n-grams精确度的加权几何平均,按照下式计算:
BLEUN(C,S)=b(C,S)exp(∑n=1NωnlogCPn(C,S))
其中,N可取1、2、3、4,而ωn一般对所有n取常值,即1n
BLEU在语料库层级上具有很好匹配的语句上表现很好,但随着n的增加,在句子层级上的匹配越来越差
因此,BLEU在个别语句上可能表现不佳
METEOR标准于2004年由Lavir发现在评价指标中召回率的意义后提出[3]
他们的研究表明,召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU),其结果和人工判断的结果有较高相关性
METEOR测度基于单精度的加权调和平均数和单字召回率,其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能,如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)m,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)ch来得出
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:
Pen=γ(chm)θ
Fmean=PmRmαPm+(1−α)Rm
Pm=|m|∑khk(ci)
Rm=|m|∑khk(sij)
METEOR=(1−Pen)Fmean
其中,α、γ和θ均为用于评价的默认参数
因此,METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均,并包含一个惩罚系数Pen
和BLEU不同,METEOR同时考虑了基于整个语料库上的准确率和召回率,而最终得出测度
下面分别对两个常用的评价方法进行介绍:[1]
BLEU
BLEU(Bilingual Evaluation understudy)是一种流行的机器翻译评价指标,用于分析候选译文和参考译文中n元组共同出现的程度,由IBM于2002年提出[2]对于一个待翻译句子,候选译文可以表示为ci,而对应的一组参考译文可以表示为Si={si1,si2,...,sim}∈S
n-grams表示n个单词长度的词组集合,令ωk表示第k组可能的n-grams
hk(ci)表示ωk在候选译文ci中出现的次数,hk(sij)表示ωk在参考译文sij中出现的次数
BLEU则按下式计算对应语句中语料库层面上的重合精度:
CPn(C,S)=∑i∑kmin(hk(ci),maxj∈mhk(sij))∑i∑khk(ci)
其中k标示了可能存在的n-grams序号
容易看出CPn(C,S)是一个精确度度量,在语句较短时表现更好
所以我们再引入一个惩罚因子BP(Brevity Penalty):
b(C,S)={1e1−lslcif lc>lsif lc≤ls
其中lc表示候选译文ci的长度,ls表示参考译文sij的有效长度(当存在多个参考译文时,选取和lc最接近的长度)
本质上,BLEU是一个n-grams精确度的加权几何平均,按照下式计算:
BLEUN(C,S)=b(C,S)exp(∑n=1NωnlogCPn(C,S))
其中,N可取1、2、3、4,而ωn一般对所有n取常值,即1n
BLEU在语料库层级上具有很好匹配的语句上表现很好,但随着n的增加,在句子层级上的匹配越来越差
因此,BLEU在个别语句上可能表现不佳
METEOR
METEOR标准于2004年由Lavir发现在评价指标中召回率的意义后提出[3]他们的研究表明,召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU),其结果和人工判断的结果有较高相关性
METEOR测度基于单精度的加权调和平均数和单字召回率,其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能,如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)m,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)ch来得出
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:
Pen=γ(chm)θ
Fmean=PmRmαPm+(1−α)Rm
Pm=|m|∑khk(ci)
Rm=|m|∑khk(sij)
METEOR=(1−Pen)Fmean
其中,α、γ和θ均为用于评价的默认参数
因此,METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均,并包含一个惩罚系数Pen
和BLEU不同,METEOR同时考虑了基于整个语料库上的准确率和召回率,而最终得出测度
相关文章推荐
- [置顶] 【NLP】机器翻译常用评价标准 (BLEU & METEOR)
- 机器学习(二十三)——Beam Search, NLP机器翻译常用评价度量, 模型驱动 vs 数据驱动
- 机器翻译的评价标准BLEU(Evaluation criteria for machine translation)
- BLEU,ROUGE,METEOR,ROUGE-浅述自然语言处理机器翻译常用评价度量
- BLEU : 一种机器翻译自动评价方法
- 一种机器翻译的评价准则——Bleu
- 第三章 标准库类型(part 5) 总结 & 常用术语
- 机器翻译评估标准介绍和计算方法
- 评价标准—ROC & AUC
- Web 标准下兼容多浏览器的 CSS 布局常用技巧 http://bbs.ixuer.net/viewthread.php?tid=1410&extra=page%3D1
- 计算机视觉常用的评价标准
- NLP常用工具及机器学习各类工具比较
- 机器学习中评估算法的常用评价指标
- 图像分割评价标准VO&DC的计算方法
- Web应用防火墙(WAF Web Application Firewall)评价标准【翻译】
- 开源 | 哈佛大学NLP组开源神经机器翻译工具包OpenNMT:已达到生产可用水平
- 机器学习分类算法常用评价指标
- NLP常用工具及机器学习各类工具比较
- 评估图像质量评价算法性能的几个常用的标准
- QS0004-2012 瞿氏标准(Qu's Standards)软件项目代码结构质量评价标准