您的位置:首页 > 其它

知识图谱-基于规则-知识抽取简介

2020-02-05 17:43 141 查看

摘自徐阿衡,加入一些理解和注释

介绍

知识抽取涉及的“知识”通常是 清楚的、事实性的信息,这些信息来自不同的来源和结构,而对不同数据源进行的知识抽取的方法各有不同,从结构化数据中获取知识用 D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等,从链接数据中获取知识用图映射,难点在于数据对齐,从半结构化数据中获取知识用包装器,难点在于 wrapper 的自动生成、更新和维护,这一篇主要讲从文本中获取知识,也就是我们广义上说的信息抽取。

信息抽取三个最重要/最受关注的子任务:

实体抽取
也就是命名实体识别,包括实体的检测(find)和分类(classify)
关系抽取
通常我们说的三元组(triple) 抽取,一个谓词(predicate)带 2 个形参(argument),如 Founding-location(IBM,New York)
事件抽取
相当于一种多元关系的抽取(不做介绍)

一、实体抽取 / 命名实体识别(NER)

实体抽取或者说命名实体识别(NER)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find & classify,找到命名实体,并进行分类。

ex:
主要应用:

命名实体作为索引和超链接
情感分析的准备步骤,在情感分析的文本中需要识别公司和产品,才能进一步为情感词归类
关系抽取(Relation Extraction)的准备步骤
QA 系统,大多数答案都是命名实体

传统机器学习方法

标准流程:
Training:

1.收集代表性的训练文档
2.为每个 token(分词后的短语,个人理解) 标记命名实体(不属于任何实体就标 Others O)
3.设计适合该文本和类别的特征提取方法
4.训练一个 序列分类器( sequence classifier) 来预测数据的 label(类别,人物,地点等)

Testing:

1.收集测试文档
2.运行 序列分类器 给每个 token 做标记
3.输出命名实体(NE)


特征选择(Features for sequence labeling)
来看一个比较重要的 特征(feature)
Word substrings(子串)
Word substrings (包括前后缀)的作用是很大的,以下面的例子为例,NE(命名实体) 中间有 ‘oxa’ 的十有八九是 drug,NE 中间有 ‘:’ 的则大多都是 movie,而以 field 结尾的 NE 往往是 place。

实体链接,消歧
实体识别完成之后还需要进行归一化,比如万达集团、大连万达集团、万达集团有限公司这些实体其实是可以融合的。
主要步骤如下:

1.实体识别
命名实体识别,词典匹配

2.候选实体生成
表层名字扩展,搜索引擎,查询实体引用表

3.候选实体消歧
图方法,概率生成模型,主题模型,深度学习

关系抽取

关系抽取 需要从文本中抽取两个或多个实体之间的语义关系,主要方法有下面几类:

基于模板的方法(hand-written patterns) (也称作基于规则)

  • 基于触发词/字符串(模式)
  • 基于依存句法(以动词为起点构建规则,对节点上的词性和边上的依存关系进行限定)
    小结
    手写规则的 优点 是:
  • 人工规则有高准确率(high-precision)
  • 可以为特定领域定制(tailor)
  • 在小规模数据集上容易实现,构建简单

缺点:

  • 低召回率(low-recall)
  • 特定领域的模板需要专家构建,要考虑周全所有可能的 pattern 很难,也很费时间精力
  • 需要为每条关系来定义 pattern
  • 难以维护
  • 可移植性差

机器学习方法在本文不作详述

监督学习(supervised machine learning)

  • 机器学习
  • 深度学习(Pipeline vs Joint Model)

监督学习-小结
如果测试集和训练集很相似,那么监督学习的准确率会很高,然而,它对不同 genre 的泛化能力有限,模型比较脆弱,也很难扩展新的关系;另一方面,获取这么大的训练集代价也是昂贵的。

半监督/无监督学习(semi-supervised and unsupervised)

  • Bootstrapping
  • Distant supervision
  • Unsupervised learning from the web
  • 点赞
  • 收藏
  • 分享
  • 文章举报
Pinker_Q 发布了4 篇原创文章 · 获赞 0 · 访问量 81 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: