BLEU:Bilingual evaluation understudy
BLEU:Bilingual evaluation understudy
NMT/BLEU
N-gram
比较机翻和答案之间n组词的相似的一个占比
原文:今天天气不错
机翻:It is a nice day today
答案:Today is a nice day
1-gram:
机翻一共6个词 5个都命中
1-gram precision 5/6
3-gram:
机翻一共可以分为四个3-gram的词组 其中两个可以命中答案
3-gram precision 2/4
一词类推可以计算到N-gram的precision
一般来说,1-gram的结果代表了有多少个词被单独翻译出来了,反映了翻译的充分性。2-gram以上的结果反映了译文的流畅度,越高翻译可读性高。
Precison and Modified n-gram precision
机翻: the the the the the the the.
答案 1: The cat is on the mat.
答案 2: There is a cat on the mat.
每一个句子都可以得到一个Modified n-gram precision,一个句子不能代表文本翻译的水平高低,于是把一段话或者所有翻译句子的结果综合起来:
(将候选段落的所有n-gram进行了截断统计作为分子,分母是候选段落的n-gram的个数)
比如说Modified 1-gram precision就分母是机翻答案有多少个单词。
然后分子是 所有不重复单词求COUNTclip然后加起来。
多个modified n-gram precision进行组合
unigram和n-gram下的指标进行组合使用
随着n-gram的增大,Precision总体上成指数下降的,而且可以粗略的看成随着n而指数级的下降。我们这里采取几何加权平均,并且将各n-gram的作用视为等重要的,即取权重服从均匀分布。
(Wn 权重 这里当做一样的)
Sentence brevity penalty
有一个大问题 ,短译句容易得高分!
最佳匹配长度 :best match length
如果机翻和任意一个答案长度相同,那就认为满足最佳匹配长度。这种情况下就不惩罚了。
c:机翻总长度
r:答案总长度
(通常这个N取4,wn=1/4,这就是很多论文里面的一个经典指标Bleu4)
- 机器翻译(一):BLEU(bilingual evaluation understudy)
- Think in dataset under evaluation of TensorFlow object detection API
- 机器翻译的评价标准BLEU(Evaluation criteria for machine translation)
- Study Under a Word-Study Program
- BLEU: a Method for Automatic Evaluation of Machine Translation
- [文献阅读] Bleu: a Method for Automatic Evaluation of Machine Translation
- openglStudySite
- Underscore.js 中 _.throttle 和 _.debounce 的差异
- 【转】The Architecture Twitter Uses To Deal With 150M Active Users, 300K QPS, A 22 MB/S Firehose, And Send Tweets In Under 5 Second
- 读白刃underscore疑惑分析--underscore源码学习二
- 我的高大上技术(study)
- APPLYING DEEP LEARNING TO ANSWER SELECTION: A STUDY AND AN OPEN TASK 论文阅读
- webpack study
- Android Study 之聊聊关于图片压缩那点事儿
- 大话设计模式-Study-Tips-第三章-装饰模式
- 【高效学习秘诀1】——How to study?
- [笔记分享] [Hardware] MSM8x60 User Guide study report
- Python Study (01) 之 特殊方法
- 文献综述——In-Situ Visualization in Fluid Mechanics using Catalyst: A Case Study for Code Saturne