您的位置：首页 > 其它

知识图谱3-【看一篇论文《Graph-Based Wrong IsA Relation Detectionin a Large-Scale Lexical Taxonomy》】

2017-07-09 11:12 639 查看

Graph-Based Wrong IsA Relation Detectionin a Large-Scale Lexical Taxonomy

作者： Jiaqing Liang, Yanghua Xiao, Yi Zhang, Seung-won Hwang, Haixun Wang

发表时间： 2017-03

论文链接： https://aaai.org/ocs/index.php/AAAI/AAAI17/paper/viewFile/14268/13898

问题：

基于知识图谱，找到图谱中错误的IsA 关系

解决思路：

文中认为一般的IsA关系不存在环,即是说， apple isA fruit 和fruit isA  apple已经只存在其一,所以作者就按照了找环的思路来判断错误的IsA关系

解决方案：

一、DAG Decomposition based Model

假设有图：G(V, E)，要寻找D(V, Ed)，使得D是无环图，且q(Er)值最小，q(Er)表示Er中所有关系的置信度的和。这里的Er = E ／ Ed。这样的算法能够使得被错分的概率更低。

具体实施：

Greedy algorithm：找到图中所有的环，对这些环的置信度进行排序，删掉置信度最低的边，一直循环直到图中没有环！ =》可能会移除太多的边！所以有了优化的贪心策略。

Improved greedy algorithm ：和上面的贪心策略一样，只是在最后对所有移除的边进行置信度由高到低的排序，依次将其添加回原图中，如果不构成环，则保留该边，若构成环就删掉！ =》这样能最大限度的保留更多置信度高的边。

所以，现在就差置信度怎么算了！

置信度的计算：【频率 + 子节点个数】

作者默认频率越高的关系对，它的置信度越大！所以简单的可以使用X isA Y表达式在知识库中出现的频率作为置信度。

但是，也有很多频率低但是确实是isA的关系对啊！为了减少这样的false positive，作者增加了一项置信度的计算方法——子节点数。

子节点数就是该实体在知识库中包含的比它下层的（lower level）节点个数，不难看出，如果X isA

Y，那么Y应该是比X要泛化的概念，所以Y的层次应该比X要高，如果Y比X层次低-》包含的子节点个数少-》Y比X更具体，那么我们认为此时的X

isA Y是错误的！

所以有如下的基于子节点数的置信度计算公式：

结合上述频率+子节点数，得到最终的置信度计算公式：

二、Level Assignment based Model

还是沿用上面提到的：如果是一个低级实体 isA 高级实体，那么作者认为这样的关系是错误的！

所以首先需要给每个节点定义一个级别！本文的baseline采用topological sorting拓扑排序的方式给图中的每个节点一个级别值（level assignment），注意，在排序之前首先要移除掉最底层的实体！！！

之所以说这是一个baseline方法，因为他没有考虑到不同节点（实体）应该有不同的权重！

所以，作者又考虑了一个不同实体不同权重的方法！——Agony Model

**Agony Model**
作者最开始的目标是什么？——是最小化false positive，所以还是沿用之前的frequency思想啊，如果频率高，那么置信度高！现在增加一个level assignment的方式对这个简单粗暴的频率置信度方法进行惩罚！

那么我们来定义一下惩罚的规则：
（1）如果一个关系对本来有很高的置信度，然而它出现在了level assignment方法给的错误关系中，那么它就应该受到更多的惩罚；
（2）level assignment给出的错误关系中，如果出现次数更多，那么也应该受到更多的惩罚。

所以，最简单的定义错误关系出现次数的方法是：

结合关系对出现频率的最终的惩罚项是：

所以经过上述讨论，我们现在的问题变成了一个数学问题：

更准确的：

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签： 知识图谱

相关文章推荐

新的分享

章节导航