您的位置:首页 > 移动开发

论文解读(FDGATII)《FDGATII : Fast Dynamic Graph Attention with Initial Residual and Identity Mapping》

2022-05-25 08:55 3311 查看

论文信息

论文标题:FDGATII : Fast Dynamic Graph Attention with Initial Residual and Identity Mapping
论文作者:Gayan K. Kulatilleke, Marius Portmann, Ryan Ko, Shekhar S. Chandra
论文来源:2021, arXiv
论文地址:download 
论文代码:download 

1 Introduction

  图神经网络引入图结构存在的问题:

  • [li]oversmoothing
  • noisy neighbours (heterophily)
  • the suspended animation problem
[/li]

2 Related Work

2.1 GCNII

  GCNII 将 GCN 扩展到一个深度模型,使 GCN 能够用两种简单的技术来表示任意系数的 $K$ 阶多项式滤波器:初始残差连接和恒等式映射。在形式上,我们将GCNII的第 $l$ 层定义为:

    $\mathbf{H}^{l+1}=\sigma\left(\left(\left(1-\alpha_{l}\right) \overline{\mathbf{P}} \mathbf{H}^{l}+\alpha_{l} \mathbf{H}^{0}\right)\left(\left(1-\beta_{l}\right) \mathbf{I}_{n}+\beta_{l} \mathbf{W}^{l}\right)\right)     \quad\quad\quad(1)$

  其中,$\bar{P}=\bar{D}^{-1 / 2} \bar{A} \bar{D}^{-1 / 2}$ 。

  总之,GCNII

  • [li]将平滑表示 $\mathbf{P} \mathbf{H}^{l}$ 与到第一层 $\mathbf{H}^{(0)}$ 的初始残差连接相结合;
  • 将 $\mathbf{I}_{n}$ 添加到第 $l$ 个权重矩阵 。通过使用与初始表示 $\mathbf{H}^{0}$ 的连接,GCNII确保每个节点的最终表示至少从输入层保留 $\alpha_{l}$ 倍;
[/li]

  GCNII 建立在 Hardt&Ma(2016)的基础上,他证明了 $\mathbf{H}^{l+1}=\mathbf{H}^{l}\left(\mathbf{W}^{l}+\mathbf{I}_{n}\right)$ 形式的恒等映射满足以下性质:1)最优权值矩阵 $\mathbf{W}^{l}$ 具有较小的范数;2)唯一的临界点是全局最小值。第一个特性允许我们在Wl上进行强正则化,以避免过拟合,而后者在训练数据有限的半监督任务中是可取的。第一个特性允许我们在 $\mathbf{W}^{l}$ 上进行正则化,以避免过拟合,而后者在训练数据有限的半监督任务中是可取的。

  Oono&Suzuki(2019)从理论上证明了GCN层的收敛速度依赖于 $s^{K}$,其中 $s$ 是权重矩阵 $\mathbf{W}^{l}$ 的最大奇异值。GCNII 用 $\left(1-\beta_{l}\right) \mathbf{I}_{n}+\beta_{l} \mathbf{W}^{l}$ 替换 $\mathbf{W}^{l}$ ,导致$\left(1-\beta_{l}\right) \mathbf{I}_{n}+\beta_{l} \mathbf{W}^{l}$ 中的奇异值接近 $1$,这意味着 $s^{K}$ 较大,信息损失减轻。

  然而,由于GCNII通过均匀平均结合了邻居嵌入,其异质性性能相对较差。另外,对邻近区域的选择性聚合允许关注相关节点。

2.2 Attention Mechanism

  注意,本质上是将一个 query Q 和一组 key-value pairs K、V 映射到一个输出,其中 query, keys, values 和输出都是向量(Figure 1)。

   

2.3 GAT

  GCN 将所有邻居赋予相同的权重,而GAT 对不同的邻居赋予不同的权重:

    $H^{l+1}=\sigma( \mathbf{A} \mathbf{h}^{l} \mathbf{W}^{l})  \quad\quad\quad\quad(4)$
    $H^{l+1}=\sigma( \sum_{\mathbf{j} \in \mathcal{N}_{\mathbf{i}}} \mathbf{a}_{i, j}^{l} \mathbf{h}_{j}^{l} \mathbf{W}^{l})  \quad\quad\quad\quad(5)$

  具体来说,一个评分函数 $e: R^{d} \times R^{d} \rightarrow R$ 计算每条边的得分 $(j,i)$,这表明了邻居 $j$ 的特征对节点 $i$ 的重要性:

    $e\left(\mathbf{h}_{i}, \mathbf{h}_{j}\right)=\operatorname{LeakyReLU}\left(\mathbf{a}^{T} \cdot\left[\mathbf{W} \mathbf{h}_{i} \| \mathbf{W h}_{j}\right]\right) \quad\quad\quad\quad(6)$

  使用 softmax 对所有邻居 $j \in \mathcal{N}_{i}$ 的注意得分进行归一化,注意函数定义为:

    $\begin{aligned}\alpha_{i j} =\operatorname{softmax}\left(e\left(\mathbf{h}_{i}, \mathbf{h}_{j}\right)\right) =\frac{\exp \left(e\left(\mathbf{h}_{i}, \mathbf{h}_{j}\right)\right)}{\sum \limits_{j^{\prime} \in \mathcal{N}_{i}} \exp \left(e\left(\mathbf{h}_{i}, \mathbf{h}_{j^{\prime}}\right)\right)}\end{aligned} \quad\quad\quad\quad(7)$

  最后,GAT计算相邻节点的变换特征的加权平均值作为 $i$ 的新表示,使用归一化注意系数:

    $\mathbf{h}_{i}^{\prime}=\sigma\left(\sum \limits_{j \in \mathcal{N}_{i}} \alpha_{i j} \mathbf{W h}_{j}\right)  \quad\quad\quad\quad(8)$

2.4 Dynamic attention

  Brody等人(2021)指出,标准 GAT 评分函数 $\text{Eq.6}$ 的主要问题是学习到的层 $W$ 和 $a$ 连续应用,因此可以分解成单一的线性层。

  GATv2 用一个通用逼近器函数代替了线性逼近器。

    $e\left(\mathbf{h}_{i}, \mathbf{h}_{j}\right)=\mathbf{a}^{T} \cdot \text { LeakyReLU }\left(\mathbf{W}\left[\mathbf{h}_{i} \| \mathbf{h}_{j}\right]\right) \quad\quad\quad\quad(9)$

  因此,GATv2已被证明在有噪声的数据上表现得更好。

3 Method

  本质上,我们将GATv2($\text{Eq.9}$)与初始残差连接和恒等映射结合起来(如 $\text{Eq.3}$),以增强局部聚合,同时确保对异质性的鲁棒性。在 $\text{Eq.3}$ 中,$\alpha$ 和 $\beta$ 分别为初始残差的权值和恒等式的权重。

  在 $\text{Eq.3}$,GCNII 还使用了一个变量,GCNII*与不同的权重矩阵来平滑表示 $\bar{P} \mathbf{H}^{l}$ 和初始残差 $\mathbf{H}^{0}$。形式上,GCNII*的第 $(l+1)$ 层定义为:
    $\begin{array}{r}\mathbf{H}^{l+1}=\sigma\left(\left(1-\alpha_{l}\right) \overline{\mathbf{P}} \mathbf{H}^{l}\left(\left(1-\beta_{l}\right) \mathbf{I}_{n}+\beta_{l} \mathbf{W}_{1}^{l}\right)\right. \\\left.+\alpha_{l} \mathbf{H}^{0}\left(\left(1-\beta_{l}\right) \mathbf{I}_{n}+\beta_{l} \mathbf{W}_{2}^{l}\right)\right)\end{array}\quad\quad\quad\quad(10)$

  在我们的模型中,我们使用了这两种形式的补充方法($\text{Eq.3}$,$\text{Eq.10}$)。

  框架如下:

   

3 Experiment

全监督节点分类

  

 

内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息
标签: 
相关文章推荐