您的位置：首页 > 运维架构

知识图谱系列-0【先看一个中文的知识图谱库-linked open schema】

2017-07-08 10:16 351 查看

linked open schema【中文知识库】

**

论文链接 : On publishing Chinese Linked Open Schema

这是东南大学做的一个知识库，基于50多个中文网站数据，包含数亿个关系对，及百万个实体。整体流程如下图：

**

解决思路：

**

问题的输入：一堆网页，网页由类别及标签组成。其中类别以层次的方式组织，并且当作是静态类别；标签以平坦排列的方式组织，由于标签可能是被用户随意打上的，所以也当作是动态类别。

问题的输出：zhishi.schema.包含众多站点的类别信息，并且包括了三种语义关系：相关、子类、同等（联系由弱至强）

**

工作流程：

**

【similar relation detector】给每个类别打上了很多特征（标签），然后用简单的匹配算法根据特征（标签）对类别进行相似度计算，找到相似的类别对。

【semantic relation detector】然后将相似的类别对进行更加细致的特征提取，再当作一个分类任务（相关、子类、同等），对第一阶段提取到的类别对进行分类。

**

具体的实施步骤：

**

【simillar relation detector】

类别表示：用百度知道作为知识库，将目标类别标签作为搜索关键词，提取检索到的10个页面，将这些页面相关的类别当作目标类别的辅助类别。RCS(c) = {rc1,rc2,…,rcn}表示相关的类别标签。RCV(c) =< rc1(c), rc2(c), … , rcn(c) >表示和对应的类别标签共现次数。换言之，就是在给类别打标签！

类别相似度计算：

（1）基于标签的类别相似度计算：

Where |l(c)| is the string length of c’s label, and LCS(l(c1),l(c2)) is the

longest common substring between l(c1) and l(c2).

（2）基于相关概念集的相似度计算：

（3）基于相关概念向量的相似度计算：

结合上述三种相似度计算方法，总的相似度计算公式如下：（m表示某种机器学习模型，文中尝试了三种：决策树、逻辑回归、多层感知机）

【semantic relation detector】

基于类别信息的上下文表示：用每个类别标签进行搜索，提取前20个相关的页面的信息，包括文章标题、包含类别标签的上下文句、页面链接。然后针对所有类别标签搜索到的信息进行分词和停用词处理，将得到的单词排列成一个大的数组，再依次计算每个词的TF-IDF，作为数组的值。所以每个类别信息都是用一个超长的向量表示的。

类别相似度计算：

zhishi.scheme

我打开了一个人物的RDF，第一个关系对如下：

http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/AV%E5%A5%B3%E4%BC%98 http://www.w3.org/2000/01/rdf-schema#subClassOf http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/%E4%BA%BA%E7%89%A9 .

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 知识图谱

相关文章推荐

新的分享

章节导航