您的位置:首页 > 其它

知识图谱3-【看一篇论文《Graph-Based Wrong IsA Relation Detectionin a Large-Scale Lexical Taxonomy》】

2017-07-09 11:12 639 查看

Graph-Based Wrong IsA Relation Detectionin a Large-Scale Lexical Taxonomy

作者: Jiaqing Liang, Yanghua Xiao, Yi Zhang, Seung-won Hwang, Haixun Wang

发表时间: 2017-03

论文链接: https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewFile/14268/13898

问题:

基于知识图谱,找到图谱中错误的IsA 关系

解决思路:

文中认为一般的IsA关系不存在环,即是说, apple isA fruit 和fruit isA  apple已经只存在其一,所以作者就按照了找环的思路来判断错误的IsA关系




解决方案:

一、DAG Decomposition based Model

假设有图:G(V, E),要寻找D(V, Ed),使得D是无环图,且q(Er)值最小,q(Er)表示Er中所有关系的置信度的和。这里的Er = E / Ed。 这样的算法能够使得被错分的概率更低。

具体实施:

Greedy algorithm:找到图中所有的环,对这些环的置信度进行排序,删掉置信度最低的边,一直循环直到图中没有环! =》可能会移除太多的边!所以有了优化的贪心策略。

Improved greedy algorithm :和上面的贪心策略一样,只是在最后对所有移除的边进行置信度由高到低的排序,依次将其添加回原图中,如果不构成环,则保留该边,若构成环就删掉! =》 这样能最大限度的保留更多置信度高的边。

所以,现在就差置信度怎么算了!

置信度的计算:【频率 + 子节点个数】

作者默认频率越高的关系对,它的置信度越大!所以简单的可以使用X isA Y表达式在知识库中出现的频率作为置信度。

但是,也有很多频率低但是确实是isA的关系对啊!为了减少这样的false positive,作者增加了一项置信度的计算方法——子节点数。

子节点数就是该实体在知识库中包含的比它下层的(lower level)节点个数,不难看出,如果X isA

Y,那么Y应该是比X要泛化的概念,所以Y的层次应该比X要高,如果Y比X层次低-》包含的子节点个数少-》Y比X更具体,那么我们认为此时的X

isA Y是错误的!

所以有如下的基于子节点数的置信度计算公式:



结合上述频率+子节点数,得到最终的置信度计算公式:



二、Level Assignment based Model

还是沿用上面提到的:如果是一个低级实体 isA 高级实体,那么作者认为这样的关系是错误的!


所以首先需要给每个节点定义一个级别!本文的baseline采用topological sorting拓扑排序的方式给图中的每个节点一个级别值(level assignment),注意,在排序之前首先要移除掉最底层的实体!!!

之所以说这是一个baseline方法,因为他没有考虑到不同节点(实体)应该有不同的权重!

所以,作者又考虑了一个不同实体不同权重的方法!——Agony Model

**Agony Model**
作者最开始的目标是什么?——是最小化false positive,所以还是沿用之前的frequency思想啊,如果频率高,那么置信度高!现在增加一个level assignment的方式对这个简单粗暴的频率置信度方法进行惩罚!

那么我们来定义一下惩罚的规则:
(1)如果一个关系对本来有很高的置信度,然而它出现在了level assignment方法给的错误关系中,那么它就应该受到更多的惩罚;
(2)level assignment给出的错误关系中,如果出现次数更多,那么也应该受到更多的惩罚。


所以,最简单的定义错误关系出现次数的方法是:



结合关系对出现频率的最终的惩罚项是:



所以经过上述讨论,我们现在的问题变成了一个数学问题:



更准确的:

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签:  知识图谱
相关文章推荐