您的位置：首页 > 大数据 > 人工智能

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding论文学习

2020-02-04 06:34 441 查看

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding论文学习

INTRODUCTION

在nlp领域，语言模型的预训练可以提高下游模型表现，主要有两个类型：
1.基于特征的，例如ELMO：用做任务的模型来学习提前预训练好的语言模型内部隐状态的组合参数
2.微调，例如OPENAI、GRT用做任务的数据来微调已经训练好的语言模型
以上预训练存在的问题：
仅仅考虑文本的单项顺序，没有解决同时学习词汇上下文的信息问题。（EKMO只是从左到右，从右到左拼接到一起）。

CONTRIBUTIONS

1.提出新的预训练语言模型的方法—双向学习。
2.减轻网络结构复杂度。
3.刷新了各大任务指标，nlp的11大任务。

Architecture

BERT是基于多层双向Transformer编码器。
BERT的2个步骤：
pre-training BERT模型在不同任务的未标记数据上进行训练。预训练模型的参数会做为不同下游任务的模型的初始化参数。
fine-tuning BERT模型用预训练好的参数进行初始化，基于下游任务的有标签的数据来训练参数。每个下游任务有自己的微调模型。
主要介绍一下预训练的部分。

Input Representations

首先是模型的输入，模型的输入包括三个部分，分别为

1）基于词级别的词向量- 针对每一个单词的embedding
2）每一个句子的向量- 告诉模型这个单词是来自第一个句子还是第二个句子的
3）基于位置的向量 - 告诉模型每一个单词在一个句子中的位置信息
对于每一个token, 它的表征由其对应的token embedding, 段表征(segment embedding)和位置表征(position embedding)相加产生。

BERT Pre-training Tasks

BERT是一个多任务模型，它由两个任务组成，即MLM和NSP

Masked language Model

采取新的预训练的目标函数提出了一种屏蔽一句话中的部分词的训练方法，然后让模型来预测屏蔽的那个词
在随机确定了15%个要被[MASK]的单词后，句子要被多次送入模型训练，并没有在每次都mask掉这些单词，而是
80%的时候会直接替换为[Mask]
eg：my dog is cute -> my dog is [mask]
10%的时候将其替换为其它任意单词
eg：my dog is cute -> my dog is apple
10%的时候会保留原始Token
eg：my dog is cute -> my dog is cute
这样做的好处是学习到的表征能够融合两个方向上的context。Transformer 编码器不知道它将被要求预测哪些单词，或者哪些单词已经被随机单词替换，因此它被迫保持每个输入标记的分布的上下文表示。
（选择15%的原因：避免fine-tuning的时候，模型有一些没见过的单词[mask]，预训练过程与fine-tuning不匹配。缺点是，输入一个句子，只预测句子中15%的词，需要更多迭代次数以收敛（不懂），训练很慢。加入任意单词，可以看作是加入噪音，使模型更健壮。保留原始Token的原因是：使表示偏向于实际观察到的词。）

Next Sentence Prediction

增加句子级别的任务
NSP的任务是判断句子B是否是句子A的下文。
从语料中随机抽取连续的两句话，其中50%保留抽取的两句话,一半是正确的，一半是错误的。

[CLS]时一个特别设置的符号，添加在每个输入样本的前面，表示这是一个输入样本的开始
[SEP]是特别设置的一个分隔标记。比如分隔questions/answers