您的位置：首页 > 其它

【论文笔记】中文社交媒体中的跨领域，半监督的NER模型

2018-02-27 22:24 330 查看

title

A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Media

中文社交媒体中的跨领域，半监督的统一NER模型

主要内容

提出了一种能够在无标注的外部领域数据和本领域数据上面做ner的统一方法，并在中文社交媒体数据集上得到11个点的绝对提升

框架有两个主要功能

1.基于领域相似性，从跨领域的数据中学习到外部领域的信息

2.通过self-training，从本领域的未标注数据中学习到更多信息。

背景

NER

命名实体识别（NER)通常要识别的有五类实体类型，人名（PER),标题(TTL),机构（ORG)，行政单位(GPE)，地理位置（LOC).而识别中的mention，是一个指向实体的单词（NAM)，名词短语(NOM)或者介词短语（PRO)。一般来说会把NER看做一个序列标注过程。

社交媒体上的NER困难在于需要容忍用户的不规范表达和大量噪声（存在大量简写和大量打印错误）。与此同时，因为汉语没有明显的词边界，这又给序列标注带来很多困难。

本篇文章考虑的是在中文社交媒体中做PER，ORG，GPE，LOC,NAM,NOM,PRO的NER。

Cross domain learning

一方面因为缺少跨领域的足够标注，另一方面有时候并不能知道语料本身的所属领域，有的NLP任务在切换领域测试时候效果往往急剧下降，这也对模型的领域适应性提出考验。

Semi-Supervised Learning

因为人工标注成本特别高，而大量数据都是没有标注的，半监督的方法利用无标注数据非常必要，具体的半监督的各种方法可以参考http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496155.html相关的系列文章。

方法细节

Framework

论文的提出用一个统一的框架去解决cross domain的NER学习问题，首先问题被定义为对sentence的序列标注，所以作者选择了BILSTM-MMNN(max margin neural network)作为训练的基础模型，也就是说，对于一个句子xx来说，NER的结果是序列标注score最大的那一组：