您的位置：首页 > 其它

知识图谱构建摸索

2016-12-22 21:23 387 查看

一、前言

知识图谱（Knowledge Graph）突然就变得很热门，自己也被分配去研究构建知识图谱了，中间也看了很多资料，这里想做个小笔记，方便日后的查阅和备忘吧！

二、什么是知识图谱？

构成这个世界的是实体，而非字符串（things, not strings）。

知识图谱其实就是以前的语义网，只不过换了一个名字而已。知识图谱就是把所有不同种类的信息（Heterogeneous Information）连接在一起而得到的一个关系网络。知识图谱提供了从“关系”的角度去分析问题的能力。

知识图谱这个概念最早由Google在2012年提出的，主要是用来优化现有的搜索引擎。不同于基于关键词搜索的传统搜索引擎，知识图谱可用来更好地查询复杂的关联信息，从语义层面理解用户意图，改进搜索质量。比如在Google的搜索框里输入“Marie Curie”（玛丽·居里）这个查询词，谷歌会在右侧提供了居里夫人的详细信息，如个人简介、出生地点、生卒年月等，甚至还包括一些与居里夫人有关的历史人物，例如爱因斯坦、皮埃尔·居里（居里夫人的丈夫）等。

三、构建流程

四、我的摸索

知识图谱的构建一般就是分为上面说的四个步骤，其中“知识存储”是很重要的一步，这个关系到你接下来的工具学习。一般来说，知识图谱有两种存储的形式，一种就是传统的RDF存储，另一种就是图数据库存储，这里推荐采用图数据库，因为google知识图谱采用的就是图数据库的形式，而且RDF的形式学习成本比较高，上手麻烦。

下面是我的摸索过程：

刚开始采用的是RDF的形式，毕竟刚接触知识图谱的时候，大家肯定都是用过斯坦福大学提供的可视化工具protege来手工构建，我自己也学习了一下，发现实在太繁琐，效率很低，而且不适合大一点知识图谱的构建，最终弃掉的主要原因是对中文支持差。后来知道了jena，是一个java框架，提供了API来处理基于RDF的本体数据，方便半自动的构建，所以之后就采用了jena 和 virtuoso的组合（一个可以存储RDF的数据库，据说stardog更加的不错），但是发现传统的RDF查询需要用到sparql，学习成本很高，很复杂也不好用。

最终，采用了neo4j图数据和它本身提供cypher查询语句的方式，优点明显，学习和上手简单了很多，而且因为neo4j也是比较主流的图数据，资料丰富很多（中文有两本不错的书：《图数据》和《neo4j实战》，方便入门），neo4j本身还提供了可视化数据的功能，方便知识库的构建。

以上就是我的摸索过程，仅供大家参考，纯属个人观点。

如果也有在摸索知识图谱构建的同学或者前辈，欢迎留言交流和指导，我自己也还在不断摸索和学习中！Ｏ（∩＿∩）Ｏ

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航