知识图谱-基于规则-知识抽取简介
摘自徐阿衡,加入一些理解和注释
介绍
知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于 wrapper 的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是我们广义上说的信息抽取。
信息抽取三个最重要/最受关注的子任务:
实体抽取
也就是命名实体识别,包括实体的检测(find)和分类(classify)
关系抽取
通常我们说的三元组(triple) 抽取,一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York)
事件抽取
相当于一种多元关系的抽取(不做介绍)
一、实体抽取 / 命名实体识别(NER)
实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。
ex:
主要应用:
命名实体作为索引和超链接
情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类
关系抽取(Relation Extraction)的准备步骤
QA 系统,大多数答案都是命名实体
传统机器学习方法
标准流程:
Training:
1.收集代表性的训练文档
2.为每个 token(分词后的短语,个人理解) 标记命名实体(不属于任何实体就标 Others O)
3.设计适合该文本和类别的特征提取方法
4.训练一个 序列分类器( sequence classifier) 来预测数据的 label(类别,人物,地点等)
Testing:
1.收集测试文档
2.运行 序列分类器 给每个 token 做标记
3.输出命名实体(NE)
特征选择(Features for sequence labeling)
来看一个比较重要的 特征(feature)
Word substrings(子串)
Word substrings (包括前后缀)的作用是很大的,以下面的例子为例,NE(命名实体) 中间有 ‘oxa’ 的十有八九是 drug,NE 中间有 ‘:’ 的则大多都是 movie,而以 field 结尾的 NE 往往是 place。
实体链接,消歧
实体识别完成之后还需要进行归一化,比如万达集团、大连万达集团、万达集团有限公司这些实体其实是可以融合的。
主要步骤如下:
1.实体识别
命名实体识别,词典匹配
2.候选实体生成
表层名字扩展,搜索引擎,查询实体引用表
3.候选实体消歧
图方法,概率生成模型,主题模型,深度学习
关系抽取
关系抽取 需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类:
基于模板的方法(hand-written patterns) (也称作基于规则)
- 基于触发词/字符串(模式)
- 基于依存句法(以动词为起点构建规则,对节点上的词性和边上的依存关系进行限定)
小结
手写规则的 优点 是: - 人工规则有高准确率(high-precision)
- 可以为特定领域定制(tailor)
- 在小规模数据集上容易实现,构建简单
缺点:
- 低召回率(low-recall)
- 特定领域的模板需要专家构建,要考虑周全所有可能的 pattern 很难,也很费时间精力
- 需要为每条关系来定义 pattern
- 难以维护
- 可移植性差
机器学习方法在本文不作详述
监督学习(supervised machine learning)
- 机器学习
- 深度学习(Pipeline vs Joint Model)
监督学习-小结
如果测试集和训练集很相似,那么监督学习的准确率会很高,然而,它对不同 genre 的泛化能力有限,模型比较脆弱,也很难扩展新的关系;另一方面,获取这么大的训练集代价也是昂贵的。
半监督/无监督学习(semi-supervised and unsupervised)
- Bootstrapping
- Distant supervision
- Unsupervised learning from the web
- 点赞
- 收藏
- 分享
- 文章举报
- 知识图谱推理与实践 (2) -- 基于jena实现规则推理
- 【知识图谱】基于神经网络的实体识别和关系抽取联合学习
- 基于知识图谱的问答系统(三): 信息抽取
- 基于知识图谱的问答系统(四):向量建模篇
- 基于知识图谱的电影自动问答系统(二)自动问答实现
- 基于知识图谱的电影自动问答系统(一)知识的获取与存储
- 知识图谱技术分享会----有关知识图谱构建的部分关键技术简介及思考
- 刘升平 | 基于知识图谱的人机对话系统
- 知识图谱构建中的抽取方法
- 人工智能-基于规则的专家系统(基础知识)
- 知识图谱简介(一)——相关概念
- 知识图谱简介
- 王仲远 | 基于概念知识图谱的短文本理解
- 肖仰华 | 基于知识图谱的可解释人工智能:机遇与挑战
- 报名 | 东南大学周张泉:基于知识图谱的推理技术
- 东南大学周张泉:基于知识图谱的推理技术 | 实录·Guru Talk
- <转载.翻译>知识图谱简介:事物,而非字符
- 知识图谱-知识抽取-实体抽取(命名实体)
- 知识图谱(一)简介
- 【知识图谱】复旦大学:基于知识图谱的用户画像技术研究