您的位置:首页 > 其它

3-知识图谱构建-知识图谱-自然语言处理

2018-06-05 11:03 399 查看
版权声明:可以 https://blog.csdn.net/yeziand01/article/details/80578166

来源:《中文信息处理报告》

知识图谱构建

根据特定知识表示模型,从分布异构的海量互联网资源中采用机器学习和信息抽取等技术,建立大规模知识图谱的过程。

知识图谱构建的数据源是什么?这种数据源存在什么问题?对应的处理技术是什么?技术处理后,要达到的效果是什么?

  • 大规模知识库==>语义集成
数据源:互联网上已有许多大规模知识库,比较著名的有 DBPedia、YAGO,wikipedia等。
存在问题:知识库之间的异构性,对知识在整个语义网上的共享造成了阻碍。
处理技术及其目的:采用语义集成技术,发现异构知识库中实体间的等价关系,从而实现知识共享。由于知识库多以本体的形式描述,因此语义集成中的主要环节是本体映射。本体匹配的方法主要包括: 

基于文本信息的方法:这种方法主要利用本体中实体的文本信息,例如实体的标签和摘要信息。通过计算两个实体字符串之间的相似度(常用的有编辑距离相似度, Jaccard 相似度),来确定实体之间是否具有匹配关系。基于结构的方法:这种方法主要利用本体的图结构信息来对本体进行匹配。其中较为代表性的方法有 SimRank 和相似度传播, 这些方法利用本体的图结构,对实体间的相似度进行传播,从而提高对齐的效果。基于背景知识的方法:这种方法一般使用 DBPedia 或WordNet 等已有的大规模领域无关知识库作为背景知识来提高匹配效果。例如,Aleksovski 等人利用 DICE 本体(医学领域的本体)来匹配结构信息缺失的两个与医学相关的本体。基于机器学习的方法:这种方法将本体匹配问题视为一个机器学习中的分类或优化问题,采取机器学习方法获得匹配结果。例如将本体匹配视为一个贝叶斯决策问题。 Niepert 等人将本体匹配问题使用马尔可夫逻辑网络(Markov Logic Network)建模,将本体中的各种信息转化为各种约束条件,并求出最优解。

  • 分布、异构的海量资源==>机器学习
数据源:互联网上的分布、异构的海量资源
采用的技术及其效果:在海量资源中,采用机器学习方法,抽取其中的事实知识,以三元组形式加入知识图谱中,事实越多,知识图谱越丰富。据不完全统计,Google 知识图谱到目前为止包含了 5亿个实体和35 亿条事实。事实学习方法可以分为有监督、半有监督及无监督方法。 
1)有监督方法
    有监督的事实知识获取方法使用已标注文档作为训练集,可以分为基于规则学习、基于分类和基于序列标注方法等。基于规则学习的语义标注方法从带语义标注的语料中自动学习标注规则,利用规则对数据资源进行语义标志,适合对具有比较规范出现的资源的知识获取;基于分类的知识获取方法将知识获取方法转化为分类算法,根据确定的标注特征从标注预料中学习标注模型;基于序列模式标注的方法同时考虑多个语义标志之间的关系,可以提高标注的准确率。还包括其他如考虑层次关系的语义标注的方法等。 
2)半监督方法
    半有监督的知识获取方法主要包括自扩展方法(bootstrapping)、弱有监督方法(distant supervision)和开放信息抽取方法(open information extraction)。自扩展方法需要初始的种子实体对,根据这些种子实体对,发现新的语义模板,再对语料进行迭代抽取以发现新的实体对,这种方法的主要问题是语义漂移,代表工作有 Mutual exclusive Bootstrapping, Coupled trainin 和 Co-Bootstrapping。弱监督方法使用知识库中的关系启发式地标注文本,它的问题主要在于训练实例中本身带有大量噪音。开放信息抽取法主要使用自然语言处理方法,无需预先给定要抽取的关系类别,自动将自然语言句子转换为命题。这种方法的主要缺点是在处理复杂句子时效果会受到影响。 
3)无监督方法

    无监督知识获取的代表性系统有 KnowItAll, 这套系统具有领域无关特性,可以使用自扩展的方式从大规模互联网信息中抽取语义信息,同时可以自动地评估所抽取信息的可信程度。 

知识图谱构建领域目前存在什么问题?

1)人工构造知识图谱存在需要花费大量人工,建立的知识图谱覆盖度不足
2)自动的知识图谱构建技术存在知识质量难以应用。

知识图谱构建领域目前的研究方向和热点是什么?

1)如何从分布、异构、有噪音、碎片化的大数据中获得高质量的大规模知识图谱是一个研究热点。
2)如何构建融合符号逻辑深度计算的知识获取和推理技术是其中一个有前景的研究方向.
阅读更多
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: