您的位置:首页 > 运维架构

知识图谱系列-0【先看一个中文的知识图谱库-linked open schema】

2017-07-08 10:16 351 查看
**

linked open schema【中文知识库】

**

论文链接 : On publishing Chinese Linked Open Schema

这是东南大学做的一个知识库,基于50多个中文网站数据,包含数亿个关系对,及百万个实体。整体流程如下图:



**

解决思路:

**

问题的输入:一堆网页,网页由类别及标签组成。其中类别以层次的方式组织,并且当作是静态类别;标签以平坦排列的方式组织,由于标签可能是被用户随意打上的,所以也当作是动态类别。

问题的输出:zhishi.schema.包含众多站点的类别信息,并且包括了三种语义关系:相关、子类、同等(联系由弱至强)

**

工作流程:

**

【similar relation detector】给每个类别打上了很多特征(标签),然后用简单的匹配算法根据特征(标签)对类别进行相似度计算,找到相似的类别对。

【semantic relation detector】然后将相似的类别对进行更加细致的特征提取,再当作一个分类任务(相关、子类、同等),对第一阶段提取到的类别对进行分类。

**

具体的实施步骤:

**

【simillar relation detector】

类别表示:用百度知道作为知识库,将目标类别标签作为搜索关键词,提取检索到的10个页面,将这些页面相关的类别当作目标类别的辅助类别。RCS(c) = {rc1,rc2,…,rcn}表示相关的类别标签。RCV(c) =< rc1(c), rc2(c), … , rcn(c) >表示和对应的类别标签共现次数。换言之,就是在给类别打标签!

类别相似度计算

(1)基于标签的类别相似度计算:



Where |l(c)| is the string length of c’s label, and LCS(l(c1),l(c2)) is the

longest common substring between l(c1) and l(c2).

(2)基于相关概念集的相似度计算:



(3)基于相关概念向量的相似度计算:



结合上述三种相似度计算方法,总的相似度计算公式如下:(m表示某种机器学习模型,文中尝试了三种:决策树、逻辑回归、多层感知机)



【semantic relation detector】

基于类别信息的上下文表示:用每个类别标签进行搜索,提取前20个相关的页面的信息,包括文章标题、包含类别标签的上下文句、页面链接。然后针对所有类别标签搜索到的信息进行分词和停用词处理,将得到的单词排列成一个大的数组,再依次计算每个词的TF-IDF,作为数组的值。所以每个类别信息都是用一个超长的向量表示的。

类别相似度计算:





zhishi.scheme

我打开了一个人物的RDF,第一个关系对如下:

http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/AV%E5%A5%B3%E4%BC%98 http://www.w3.org/2000/01/rdf-schema#subClassOf http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/%E4%BA%BA%E7%89%A9 .
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  知识图谱