知识图谱的构建流程
2015-11-12 15:58
197 查看
简单介绍关于知识图谱的构建的流程:
1. 数据来源:(数据层(Data Level)的构建)
百科类数据(Wikipedia半结构化, Freebase结构化),
结构化数据(DBpedia 和YAGO 等通用语义数据集,还包括如MusicBrainz 和DrugBank 等特定领域的知识库),
半结构化数据,自动化的AVP(属性-值对)抽取
以及搜索日志挖掘,发现最新出现的各种实体,基于Bootstrapping的多类别协同模式学习
Bootstrapping方法的过程:
Given a hand of seed NEs of a category C:
Learning context features of the seeds from queries
Extracting new seed entities of category C using the learnt context features
Expanding context features using the expanded seed set
#属性-值对(attribute-value pair,又称AVP)用来刻画实体的内在特性;而关系(relation)用来连接两个实体,刻画它们之间的关联
2. 从抽取图谱(Extraction Graphs)到知识图谱:
(1)实体对齐(Object Alignment),针对多种来源数据用聚类算法,关键在于定义合适的相似度度量
(2)知识图谱schema构建,相当于为其建立本体(Ontology),最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。
自顶向下的方式是指通过本体编辑器(Ontology Editor)预先构建本体,本体构建不是从无到有的过程,而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。
自底向上的方式则通过上面介绍的各种抽取技术,特别是通过搜索日志和Web Table抽取发现的类别、属性和关系,并将这些置信度高的模式合并到知识图谱中。合并过程将使用类似实体对齐的对齐算法。
(3)不一致性的解决。
优先采用那些可靠性高的数据源(如百科类或结构化数据)抽取得到的事实。
3. 知识图谱的挖掘:
(1)推理,针对属性;针对关系
(2)实体重要性排序,
当查询涉及多个实体时,搜索引擎将选择与查询更相关且更重要的实体来展示。实体的相关性度量需在查询时在线计算,而实体重要性与查询无关可离线计算,搜索引擎公司将PageRank算法 应用在知识图谱上来计算实体的重要性
(3)相关实体挖掘。使用主题模型(如LDA)发现虚拟文档集中的主题分布。其中每个主题包含1个或多个实体,这些在同一个主题中的实体互为相关实体。当用户输入查询时,搜索引擎分析查询的主题分布并选出最相关的主题。
4. 知识图谱的更新和维护。
(1)Type和Collection的关系
搜索引擎公司还通过自动化算法从各种数据源抽取新的类型信息,如果Collection中的某一种类型能够长期的保留,发展到一定程度后,由专业的人员进行决策和命名并最终成为一种新的Type。
(2)结构化站点包装器的维护
搜索引擎会定期检查站点是否存在更新,使用最新的站点包装器进行AVP抽取
(3) 知识图谱的更新频率
Type对应的实例往往是动态变化的
(4) 众包(Crowdsourcing)反馈机制
用户可以对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错。当很多用户都指出某个错误时,搜索引擎将采纳并修正
5.知识图谱在搜索中的应用
(1)查询理解
搜索引擎并非展现实体的全部属性,而是根据当前输入的查询自动选择最相关的属性及属性值来显示。当要展现的实体被选中之后,利用相关实体挖掘来推荐其他用户可能感兴趣的实体供进一步浏览
(2)问题回答
知识图谱对于搜索所带来的另一个革新是:直接返回答案,而不仅仅是排序的文档列表。
搜索引擎不仅要理解查询中涉及到的实体及其属性,更需要理解查询所对应的语义信息。搜索引擎通过高效的图搜索,在知识图谱中查找连接这些实体及属性的子图并转换为相应的图查询(如SPARQL )
SPARQL:是一种用于RDF上的查询语言http://www.w3.org/TR/rdf-sparql-query/
1. 数据来源:(数据层(Data Level)的构建)
百科类数据(Wikipedia半结构化, Freebase结构化),
结构化数据(DBpedia 和YAGO 等通用语义数据集,还包括如MusicBrainz 和DrugBank 等特定领域的知识库),
半结构化数据,自动化的AVP(属性-值对)抽取
以及搜索日志挖掘,发现最新出现的各种实体,基于Bootstrapping的多类别协同模式学习
Bootstrapping方法的过程:
Given a hand of seed NEs of a category C:
Learning context features of the seeds from queries
Extracting new seed entities of category C using the learnt context features
Expanding context features using the expanded seed set
#属性-值对(attribute-value pair,又称AVP)用来刻画实体的内在特性;而关系(relation)用来连接两个实体,刻画它们之间的关联
2. 从抽取图谱(Extraction Graphs)到知识图谱:
(1)实体对齐(Object Alignment),针对多种来源数据用聚类算法,关键在于定义合适的相似度度量
(2)知识图谱schema构建,相当于为其建立本体(Ontology),最基本的本体包括概念、概念层次、属性、属性值类型、关系、关系定义域(Domain)概念集以及关系值域(Range)概念集。
自顶向下的方式是指通过本体编辑器(Ontology Editor)预先构建本体,本体构建不是从无到有的过程,而是依赖于从百科类和结构化数据得到的高质量知识中所提取的模式信息。
自底向上的方式则通过上面介绍的各种抽取技术,特别是通过搜索日志和Web Table抽取发现的类别、属性和关系,并将这些置信度高的模式合并到知识图谱中。合并过程将使用类似实体对齐的对齐算法。
(3)不一致性的解决。
优先采用那些可靠性高的数据源(如百科类或结构化数据)抽取得到的事实。
3. 知识图谱的挖掘:
(1)推理,针对属性;针对关系
(2)实体重要性排序,
当查询涉及多个实体时,搜索引擎将选择与查询更相关且更重要的实体来展示。实体的相关性度量需在查询时在线计算,而实体重要性与查询无关可离线计算,搜索引擎公司将PageRank算法 应用在知识图谱上来计算实体的重要性
(3)相关实体挖掘。使用主题模型(如LDA)发现虚拟文档集中的主题分布。其中每个主题包含1个或多个实体,这些在同一个主题中的实体互为相关实体。当用户输入查询时,搜索引擎分析查询的主题分布并选出最相关的主题。
4. 知识图谱的更新和维护。
(1)Type和Collection的关系
搜索引擎公司还通过自动化算法从各种数据源抽取新的类型信息,如果Collection中的某一种类型能够长期的保留,发展到一定程度后,由专业的人员进行决策和命名并最终成为一种新的Type。
(2)结构化站点包装器的维护
搜索引擎会定期检查站点是否存在更新,使用最新的站点包装器进行AVP抽取
(3) 知识图谱的更新频率
Type对应的实例往往是动态变化的
(4) 众包(Crowdsourcing)反馈机制
用户可以对搜索结果中展现的知识卡片所列出的实体相关的事实进行纠错。当很多用户都指出某个错误时,搜索引擎将采纳并修正
5.知识图谱在搜索中的应用
(1)查询理解
搜索引擎并非展现实体的全部属性,而是根据当前输入的查询自动选择最相关的属性及属性值来显示。当要展现的实体被选中之后,利用相关实体挖掘来推荐其他用户可能感兴趣的实体供进一步浏览
(2)问题回答
知识图谱对于搜索所带来的另一个革新是:直接返回答案,而不仅仅是排序的文档列表。
搜索引擎不仅要理解查询中涉及到的实体及其属性,更需要理解查询所对应的语义信息。搜索引擎通过高效的图搜索,在知识图谱中查找连接这些实体及属性的子图并转换为相应的图查询(如SPARQL )
SPARQL:是一种用于RDF上的查询语言http://www.w3.org/TR/rdf-sparql-query/
相关文章推荐
- PyQt 如果异常未处理,抛入到事件循环,则无错误提示崩溃的解决方法
- super 方法的使用
- 使用VLC推送TS流(纯图版)
- js事件委托和jQuery事件绑定on , off , one , bind , unbind , die
- 四种三栏网页宽度自适应布局方法
- 转载:目前看到最好的libdrm tutorial
- 1112-评论
- Android studio获取证书指纹 (SHA1)的方法
- 以集合思想编写SQL
- Remote Desktop Connection Manager
- 如何将一个字符串中的所有非数字(0-9及小数点)字符全部除去
- jQuery源码学习3——工具方法篇
- js分享插件
- MySQL日期、时间转换函数---date_format、time_format
- 蒙特卡罗方法(Monte Carlo method)
- redis的安全认证
- 曾经有一千台手机摆在我的面前,我没有好好珍惜,如果...
- linux下软件包的安装卸载
- CentOS下安装vsftpd(FTP)
- SpringAOP 前置、后置、环绕增强