【论文笔记】中文社交媒体中的跨领域,半监督的NER模型
2018-02-27 22:24
330 查看
title
A Unified Model for Cross-Domain and Semi-Supervised Named Entity Recognition in Chinese Social Media中文社交媒体中的跨领域,半监督的统一NER模型
主要内容
提出了一种能够在无标注的外部领域数据和本领域数据上面做ner的统一方法,并在中文社交媒体数据集上得到11个点的绝对提升框架有两个主要功能
1.基于领域相似性,从跨领域的数据中学习到外部领域的信息
2.通过self-training,从本领域的未标注数据中学习到更多信息。
背景
NER
命名实体识别(NER)通常要识别的有五类实体类型,人名(PER),标题(TTL),机构(ORG),行政单位(GPE),地理位置(LOC).而识别中的mention,是一个指向实体的单词(NAM),名词短语(NOM)或者介词短语(PRO)。一般来说会把NER看做一个序列标注过程。社交媒体上的NER困难在于需要容忍用户的不规范表达和大量噪声(存在大量简写和大量打印错误)。与此同时,因为汉语没有明显的词边界,这又给序列标注带来很多困难。
本篇文章考虑的是在中文社交媒体中做PER,ORG,GPE,LOC,NAM,NOM,PRO的NER。
Cross domain learning
一方面因为缺少跨领域的足够标注,另一方面有时候并不能知道语料本身的所属领域,有的NLP任务在切换领域测试时候效果往往急剧下降,这也对模型的领域适应性提出考验。Semi-Supervised Learning
因为人工标注成本特别高,而大量数据都是没有标注的,半监督的方法利用无标注数据非常必要,具体的半监督的各种方法可以参考http://www.cnblogs.com/liqizhou/archive/2012/05/11/2496155.html相关的系列文章。方法细节
Framework
论文的提出用一个统一的框架去解决cross domain的NER学习问题,首先问题被定义为对sentence的序列标注,所以作者选择了BILSTM-MMNN(max margin neural network)作为训练的基础模型,也就是说,对于一个句子xx来说,NER的结果是序列标注score最大的那一组:其中,s(x,y⎯⎯⎯,θ)s(x,y¯,θ)是一个标注结果序列
与此同时,作者加入了一个margin作为正负样本间的边界:
那么优化目标可以看成
最后对于序列标注本身的score计算为:
其中AA是tag的转移概率矩阵,fΛ(ti|x)=−log(yi[ti])fΛ(ti|x)=−log(yi[ti])是发射概率序列乘积。
模型更新
对于每个sentence xx来说,在epoch tt的learning rate a(t)a(t)可以看做:其中a0tat0表示这个epoch本身的learning rate,weight(x,t)weight(x,t)是这个epoch的句子xx的learning rate 权重。
其中:
其中func(x,IN)func(x,IN)是句子x来源于外部领域时候的相似度衡量函数,confid(x,t)confid(x,t)是句子没有标注的时候的半监督学习置信度衡量函数。他们作用如下:
Cross-Domain Learning Function
跨领域的数据衡量为,其中a0a0为每个epoch的基础learning_rate:其中func有三类:
1.交叉熵
其中的条件概率来自于在领域内训练好的语言模型
2. 高斯径向基核函数
3. 多项式核
其中vxvx和vINvIN都是句子的词向量平均,向量使用word2vec在大量的未标注数据语料上训练。
Semi-Supervised Learning Function
为了在epoch中区分sentence的学习率,作者认为标注结果中排序第一和第二的score比越大的标注结果越可信,则公式化为:实验
作者在微博和SIHAN数据集上进行训练和测试:可以看到NOM和NAM的准召都有很大提升,在实验中作者发现使用character-positional embeddings来计算词向量的效果会更好。
其中的BILSTM-MMNN模型是在in-domian的数据集上训练和测试的。在第二个结果模型中,word2vec是在无标注的out-of-domain数据上做了pre-train,然后在in-domain数据上训练模型的。
实验设置细节见:
相关文章推荐
- Deep Learning论文笔记之(三)单层非监督学习网络分析
- 【Scikit-Learn 中文文档】广义线性模型 - 监督学习 - 用户指南 | ApacheCN
- 论文笔记:ThiNet——一种filter级的模型裁剪算法
- Deep Learning论文笔记之(三)单层非监督学习网络分析
- 中文推荐相关论文阅读笔记
- Deep Learning论文笔记之(三)单层非监督学习网络分析
- 论文笔记:Densely Connected Convolutional Networks(DenseNet模型详解)
- scikit-learn中文文档-学习笔记二-广义线性模型
- 深度学习-模型压缩之Quantization & Binarization方向论文阅读笔记
- 【Scikit-Learn 中文文档】广义线性模型 - 监督学习 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】广义线性模型 - 监督学习 - 用户指南 | ApacheCN
- 领域模型学习笔记
- 基于逻辑的数据模型datalog 的递归应用 (论文摘要笔记)
- 【Scikit-Learn 中文文档】二十七:经网络模型(无监督)- 无监督学习 - 用户指南 | ApacheCN
- 【Scikit-Learn 中文文档】广义线性模型 - 监督学习 - 用户指南 | ApacheCN
- Deep Learning论文笔记之(三)单层非监督学习网络分析
- 【Scikit-Learn 中文文档】广义线性模型 - 监督学习 - 用户指南 |
- [论文笔记](东北大学)支持组合服务选取的QoS模型及优化求解(计算机学报06)
- 读论文笔记:无监督的卷积神经网络对单目视图的深度估计
- keras中文文档笔记15——面向小数据集构建图像分类模型