知识图谱系列-0【先看一个中文的知识图谱库-linked open schema】
2017-07-08 10:16
351 查看
**
论文链接 : On publishing Chinese Linked Open Schema
这是东南大学做的一个知识库,基于50多个中文网站数据,包含数亿个关系对,及百万个实体。整体流程如下图:
**
解决思路:
**
问题的输入:一堆网页,网页由类别及标签组成。其中类别以层次的方式组织,并且当作是静态类别;标签以平坦排列的方式组织,由于标签可能是被用户随意打上的,所以也当作是动态类别。
问题的输出:zhishi.schema.包含众多站点的类别信息,并且包括了三种语义关系:相关、子类、同等(联系由弱至强)
**
工作流程:
**
【similar relation detector】给每个类别打上了很多特征(标签),然后用简单的匹配算法根据特征(标签)对类别进行相似度计算,找到相似的类别对。
【semantic relation detector】然后将相似的类别对进行更加细致的特征提取,再当作一个分类任务(相关、子类、同等),对第一阶段提取到的类别对进行分类。
**
具体的实施步骤:
**
【simillar relation detector】
类别表示:用百度知道作为知识库,将目标类别标签作为搜索关键词,提取检索到的10个页面,将这些页面相关的类别当作目标类别的辅助类别。RCS(c) = {rc1,rc2,…,rcn}表示相关的类别标签。RCV(c) =< rc1(c), rc2(c), … , rcn(c) >表示和对应的类别标签共现次数。换言之,就是在给类别打标签!
类别相似度计算:
(1)基于标签的类别相似度计算:
Where |l(c)| is the string length of c’s label, and LCS(l(c1),l(c2)) is the
longest common substring between l(c1) and l(c2).
(2)基于相关概念集的相似度计算:
(3)基于相关概念向量的相似度计算:
结合上述三种相似度计算方法,总的相似度计算公式如下:(m表示某种机器学习模型,文中尝试了三种:决策树、逻辑回归、多层感知机)
【semantic relation detector】
基于类别信息的上下文表示:用每个类别标签进行搜索,提取前20个相关的页面的信息,包括文章标题、包含类别标签的上下文句、页面链接。然后针对所有类别标签搜索到的信息进行分词和停用词处理,将得到的单词排列成一个大的数组,再依次计算每个词的TF-IDF,作为数组的值。所以每个类别信息都是用一个超长的向量表示的。
类别相似度计算:
zhishi.scheme
我打开了一个人物的RDF,第一个关系对如下:
http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/AV%E5%A5%B3%E4%BC%98 http://www.w3.org/2000/01/rdf-schema#subClassOf http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/%E4%BA%BA%E7%89%A9 .
linked open schema【中文知识库】
**论文链接 : On publishing Chinese Linked Open Schema
这是东南大学做的一个知识库,基于50多个中文网站数据,包含数亿个关系对,及百万个实体。整体流程如下图:
**
解决思路:
**
问题的输入:一堆网页,网页由类别及标签组成。其中类别以层次的方式组织,并且当作是静态类别;标签以平坦排列的方式组织,由于标签可能是被用户随意打上的,所以也当作是动态类别。
问题的输出:zhishi.schema.包含众多站点的类别信息,并且包括了三种语义关系:相关、子类、同等(联系由弱至强)
**
工作流程:
**
【similar relation detector】给每个类别打上了很多特征(标签),然后用简单的匹配算法根据特征(标签)对类别进行相似度计算,找到相似的类别对。
【semantic relation detector】然后将相似的类别对进行更加细致的特征提取,再当作一个分类任务(相关、子类、同等),对第一阶段提取到的类别对进行分类。
**
具体的实施步骤:
**
【simillar relation detector】
类别表示:用百度知道作为知识库,将目标类别标签作为搜索关键词,提取检索到的10个页面,将这些页面相关的类别当作目标类别的辅助类别。RCS(c) = {rc1,rc2,…,rcn}表示相关的类别标签。RCV(c) =< rc1(c), rc2(c), … , rcn(c) >表示和对应的类别标签共现次数。换言之,就是在给类别打标签!
类别相似度计算:
(1)基于标签的类别相似度计算:
Where |l(c)| is the string length of c’s label, and LCS(l(c1),l(c2)) is the
longest common substring between l(c1) and l(c2).
(2)基于相关概念集的相似度计算:
(3)基于相关概念向量的相似度计算:
结合上述三种相似度计算方法,总的相似度计算公式如下:(m表示某种机器学习模型,文中尝试了三种:决策树、逻辑回归、多层感知机)
【semantic relation detector】
基于类别信息的上下文表示:用每个类别标签进行搜索,提取前20个相关的页面的信息,包括文章标题、包含类别标签的上下文句、页面链接。然后针对所有类别标签搜索到的信息进行分词和停用词处理,将得到的单词排列成一个大的数组,再依次计算每个词的TF-IDF,作为数组的值。所以每个类别信息都是用一个超长的向量表示的。
类别相似度计算:
zhishi.scheme
我打开了一个人物的RDF,第一个关系对如下:
http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/AV%E5%A5%B3%E4%BC%98 http://www.w3.org/2000/01/rdf-schema#subClassOf http://los.linkingopenschema.info/zh/%E4%BA%92%E5%8A%A8%E7%99%BE%E7%A7%91/static/%E4%BA%BA%E7%89%A9 .
相关文章推荐
- 【安全问道】系列:3分钟掌握一个互联网安全知识
- 中文知识图谱构建方法研究1
- 告诉你一个搜索服务优化方案:基于RDF的知识图谱管理
- 《Entity Framework 6 Recipes》中文翻译系列 (20) -----第四章 ASP.NET MVC中使用实体框架之在MVC中构建一个CRUD示例
- Angular知识图谱系列(一) -- NodeJS
- 中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立方
- 【转载】中文知识图谱研讨会的学习总结 (上) 图谱引入、百度知心、搜狗知立
- 自己动手系列——实现一个简单的LinkedLis
- .net知识和学习方法系列(一)开始一个CSharp程序
- 中文知识图谱
- 中文知识图谱构建方法研究2
- 自己动手系列——实现一个简单的LinkedLis
- .net知识和学习方法系列(一)开始一个CSharp程序
- 自己动手系列——实现一个简单的LinkedLis
- 自己动手系列——实现一个简单的LinkedLis
- 自己动手系列——实现一个简单的LinkedList
- 推荐一个不错的bootstrap中文系列学习教程网站-狗鱼IT教程
- struts2官方 中文教程 系列一:创建一个struts2 web Application
- 中文知识图谱构建方法研究3
- 一个分享DTrace知识的中文站点--chinadtrace.org上线了!