您的位置:首页 > 其它

【论文阅读】Deep Reasoning with Knowledge Graph for Social Relationship Understanding

2020-02-12 07:07 771 查看

Motivation

Existing works either merely fixate on the regions of persons of interest [Sun et al., 2017] or exploit category-agnostic proposals as contextual information [Li et al., 2017] to perform prediction.
Despite acknowledged successes, they ignore the semantic of contextual objects and the prior knowledge of their correlations with the social relationships. Besides, the interaction between the contextual objects and the persons of interest is also oversimplified
We first organize the prior knowledge as a structured graph that describes the co-occurrences of social relationships and semantic objects in the scene.


*

Knowledge Graph Propogation

节点分为两种,绿色为semantic object,蓝色为social relationship,节点之间的边代表两个节点co-occurrence的概率。
两种节点的初始化来自图像中的不同内容:
social relationship:将包含人的区域划分为三种,从这三种区域中抽取三种不同的feature vector,同时和位置信息(encoding the geometry feature of the two persons)一起concat送入全连接层生成d维的feature vector fh。Fh便作为所有social relationship node 的输入特征。
Object:使用经过预训练的Fast-RCNN进行object检测,由于两个数据集无法直接进行训练,因此利用COCO进行训练,然后直接在PISC和PIPA上检测object。设置一个阈值(文中作者设为0.7),将分数高于阈值的object作为semantic object。对于图像中检测到的对象o的节点,其输入特征由对应区域fo提取的特征进行初始化,否则由d维零向量初始化。
两种节点用one-hot vector 来区分[0,1] [1,0]。
每个节点v都有一个hidden state hv,t在时间t时刻,t=0时的初始化由输入特征xv。Hidden state t =0的初始化

节点hidden state的更新:

Av is the sub-matrix of A that denotes the connection of node v with its neighbors

这种更新方式是一种类似于Gated Recurrent Unit [Cho et al., 2014; Li et al., 2015b],的门机制,通过这种方式每个节点可以聚合来自其邻居的信息,同时将自己的消息传递给邻居,从而支持所有节点之间的交互。具体公式意义自己还没有看懂,有知道的小伙伴希望可以帮我解惑一下~
得到最终的hidden state 通过全连接层来实现输出网络,计算节点层次的特征:

Graph Attention Mechanism

简单来说这部分的意义是将那些有助于社交关系识别的object找出来,去除那些没有什么丰富语义信息甚至具有干扰的object。
将每个social relationship和其相邻的object pair的最后一次的hidden state作为输入,计算得到的分数代表其相对重要性。
**具体步骤,**对于给定的relationship和object使用low-rank bilinear pooling[Kim et al., 2016]来融合他们的hidden state

注意力系数计算:

表示object j对relationship i的重要性。关于a文中作者说采用全连接的方式,虽然可以使模型注意到每一个object节点,但是这样会忽略了他的图结构,因此在计算注意力系数时只考虑与节点i相连的节点j,最后使用sigmoid函数对其归一化:

Finally

对于relationship i,将其自身feature与context node的权重相结合作为最终的feature:

最终的feature再输入一个全连接层得到最终的分数:

表示该person pair属于relationship i的可能性有多大。
**

Ablation Study

**
除了和其他论文中的实验对比,文中作者也针对自己的方法做了一系列对比。

  1. Significance of knowledge graph:若没有knowledge graph作为extra guidance,而是任意的初始化图的相邻矩阵,则准确率会下降,以此体现先验知识的重要性。
  2. Analysis on the graph attention mechanism:若使用全部的节点特征结果会很差,因为它可能会关注到那些不带很多信息或者有干扰的object上

    **

Summary

**
本文的主要思想是采用图结构的模型去寻找与relationship具有相关性很强(共同出现,且在其他relationship类别里出现较少,具有较强识别性)的那些object,对其进行匹配连接。在该框架下,再利用注意力机制、GGNN等方法提高其准确率。

  • 点赞
  • 收藏
  • 分享
  • 文章举报
LeviAckerman 发布了8 篇原创文章 · 获赞 1 · 访问量 1537 私信 关注
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐