Google BERT概览(一) -它解决了哪些问题?
2019-02-06 21:24
681 查看
目录
Google BERT自然语言处理框架
2018之秋,一篇《谷歌新发布的BERT模型突破11项纪录》的文章一出来,重燃大家对人工智能自然语言处理领域的热情。借此热点,在这里整理一下自然语言处理最新发展状况。首先需要注明的一点的是,严格意义上来说,BERT模型更加针对的是自然语言处理(NLP)中的自然语言理解(NLU)分支的问题,而自然语言处理(NLP)是一个更加宽泛的研究领域,包含更多的算法,模型和应用场景。
Google BERT都能解决哪些问题
此次所谓Google的BERT(Bidirectional Encoder Representations from Transformers)模型号称打破11项纪录,那么我们就顺藤摸瓜,看看能引起Google注意的这11项挑战,由此找到NLU研究领域大家所关注的重点。
在《BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding》【原文地址】中,作者将BERT模型应用于以下实验中:
- GLUE (General Language Understanding Evaluation) 数据集【数据集地址】。如同GLUE的创建者在论文【论文地址】中介绍到的,GLUE实际上是为了能够标准化的和综合性的评估NLU(自然语言理解)算法和模型而构造出来的一套包含数据集,在线评估平台的工具,其中包含了以下九个数据集:
单句分析类
CoLA (Corpus of Linguistic Acceptability)【链接地址】 从23本语言学发表物中抽取的10657句话并就每句话是否从语法角度成立进行了标注。整个数据集提供了9594条句子作为训练集,以及1063条句子作为测试集。以下是该数据集中的一些样本条目。
- SST-2(Stanford Sentiment Treebank)【链接地址】摘取了电影评论并标注了是正面还是负面评论以用于情感分析。
-
MRPC(Microsoft Research Paraphrase Corpus)【链接地址】收录了5800对句子并标注每对句子是否在语义上等价。
-
MNLI(Multi-Genre Natural Language Inference Corpus)【链接地址】包含了433k对句子,每对句子分别包含premise和hypothesis,并标注了两者间是entail(正向关联),controdict(相互矛盾),或是neutral(中立)的关系标签。
为了进一步接近现实的阅读理解场景,2018年发布的QUaAD 2.0【文章地址】中额外增加了50k条新增的问题,并且问题不一定有答案。这要求模型和算法不但能找出答案,并且在没有答案的时候能给出正确的判断,而非“凑”答案。而在Google公布其BERT算法性能的论文中,作者采用的仍然是SQuAD1.1版本的数据集。
相关文章推荐
- 区块链适合解决哪些问题
- 解决“Connection to https://dl-ssl.google.com refused”问题
- com.google.gson.JsonSyntaxException: java.text.ParseException问题解决方案
- 解决 GoogleApi 无法访问的问题
- 插件insertpre+语法高亮插件google-code-prettify,解决CKEditor4代码高亮显示问题
- 从策划到运营,做一款地方棋牌要解决哪些问题
- URLRedirector 解决网页上无法访问 google CDN 的问题(fonts、ajax、themes、apis等)
- Failed to fetch URl https://dl-ssl.google.com/android/repository/addo Android SDK更新以及ADT更新出现问题的解决办法
- python help dir stackoverflow docs google--遇到python问题怎么样解决
- python help dir stackoverflow docs google--遇到python问题怎么样解决
- Mac系统Google登陆问题解决
- 关于ubuntu12.04下google-chrome无法启动问题的解决
- Ubuntu下安装Android SDK(图文教程)[解决Google地址被墙问题]
- 解决“Connectionto https://dl-ssl.google.com refused”问题
- 【修真院web小课堂】前端垮域问题有哪些常用的解决方式?
- 使用zxing识别二维码时抛出com.google.zxing.NotFoundException异常问题的解决
- 解决Google时常中断的问题
- [转]解决google和gmail时好时坏的问题
- 解决高密度数据中心制冷问题都有哪些招?
- 网络层的搭建需要解决哪些问题