您的位置：首页 > 其它

GRAPH ATTENTION NETWORKS--论文阅读笔记

2020-06-04 07:25 232 查看

GRAPH ATTENTION NETWORKS目录

摘要
一、介绍
二、GAT架构
2.1图注意层
2.2与相关工作的比较

3.1数据集
3.2最先进的方法
3.3实验设置
3.4实验结果

摘要

介绍：该论文发表于2018年ICLR（International Conference on Learning Representations）国际学习表征会议
一、摘要
作者提出了图注意网络graph attention networks（GATS），它是一种操作于图结构数据，利用屏蔽的自我注意层（leveraging masked self-attentional layers ）来解决基于图卷积或其近似的现有方法缺点的新型的神经网络体系结构。

通过堆叠层（节点在堆叠层中能够关注邻近节点的特征），我们可以(隐式地)为邻居中的不同节点指定不同的权重。
GATS的优点：

不需要预先知道图的结构
不需要任何类型的代价高昂的矩阵运算(例如求逆)
解决了基于谱的图神经网络的几个关键挑战
使模型易于应用于inductive问题和transductive问题。
GATS在Cora、Citeseer、Pubmed、PPI四个数据集中取得了state of the art【当前最高的水平】水平的准确率。

【注解】：作者受到attention机制的启发，将attention机制思想应用到图卷积网络中，这里的attention机制,为每个节点的邻居节点分配权重，从而关注作用较大的节点，而忽略作用较小的节点。

【注解】：注意力机制如今已经被广泛地应用到了基于序列的任务中，它的优点是能够放大数据中最重要的部分的影响。这个特性已经被证明对许多任务有用，例如机器翻译和自然语言理解。如今融入注意力机制的模型数量正在持续增加，图神经网络也受益于此，它在聚合过程中使用注意力，整合多个模型的输出，并生成面向重要目标的随机行走。
（点我查看来源）

【注解】inductive VS transductive**

归纳学习（InductiveLearning）：先从训练样本中学习到一定的模式，然后利用其对测试样本进行预测（即首先从特殊到一般，然后再从一般到特殊），这类模型如常见的贝叶斯模型。
演绎学习（Transductive Learning）：先观察特定的训练样本，然后对特定的测试样本做出预测（从特殊到特殊），这类模型如 k近邻、SVM 等。(来源)

一、介绍

卷积神经网络(CNNs)能够解决图像分类、语义分割、机器翻译等问题，其中底层数据表示具有网格状结构。这些体系结构通过将其本地滤波器应用于所有输入位置来有效地重用其具有可学习参数的本地滤波器。
然而，许多有趣的任务涉及的数据不能以类似网格的结构表示，而是位于不规则的域中。这是3D网格、社交网络、电信网络、生物网络或大脑连接的情况。这样的数据通常可以用图表的形式来表示。

在文献中已经有几次尝试将神经网络扩展到处理任意结构的图。早期的工作使用递归神经网络来处理图域中表示为有向无环图的数据。图神经网络(GNNs)是由Gori等人提出的。作为递归神经网络的推广，它可以直接处理一类更一般的图，例如循环图、有向图和无向图。GNN由一个迭代过程组成，该过程将节点状态传播到平衡；然后是一个神经网络，基于他的状态，它为每个节点生成一个输出。这一思想被李等人采纳并加以改进。

【注解3】：首先谈到了CNN在一些领域应用比较成功，擅长处理网格状（grid-like）例如图片类等比较规整的数据，面对一些不规则的数据，由于CNN提取特征使用的是滤波器在规整数据上做卷积操作的方法，对于图这种不规则的数据时，CNN无能为力，在递归神经网络的推广下，这时图卷积网络诞生了。
【注解4】：图神经网络可划分一下五个类：图卷积网络（Graph Convolution Networks，GCN）、图注意力网络（Graph Attention Networks）、图自编码器（ Graph Autoencoders）、图生成网络（ Graph Generative Networks）和图时空网络（Graph Spatial-temporal Networks）。详见：https://zhuanlan.zhihu.com/p/75307407?from_voters_page=true

该文件提议在传播步骤中使用门控经常性单元(Cho等人，2014年)。其建议在传播步骤中使用门控循环单元。
然而，人们对将卷积推广到图域的兴趣与日俱增。这一方向的进展通常分为光谱方法和非光谱方法。

一方面，谱方法处理图的谱表示，并已成功地应用于节点分类的上下文中。在布鲁纳等人。(2014)中，卷积运算是通过计算图的拉普拉斯特征分解在傅立叶域中定义的，导致潜在的密集计算和非空间局域滤波器。这些问题在随后的工作中得到了解决。Henaff等人。(2015)引入了平滑系数谱滤波器的参数化，以使其在空间上局部化。后来，Defferrard等人。(2016)提出通过图拉普拉斯的切比雪夫展开来近似滤波器，消除了计算拉普拉斯的特征向量的需要，从而产生了空间局域滤波器。最后，Kipf&Wling(2017)通过将过滤器限制在每个节点周围的1步邻域中操作，简化了之前的方法。然而，在所有上述谱方法中，学习的滤波器依赖于拉普拉斯本征基，而拉普拉斯本征基依赖于图的结构。因此，在特定结构上训练的模型不能直接应用于具有不同结构的图。

另一方面，我们有非谱方法(Duvenaud等人，2015；Atwood&Towsley，2016；Hamilton等人，2017)，它们直接在图上定义卷积，对空间上接近的邻居组进行操作。这些方法的挑战之一是定义一个算子，它可以处理不同大小的邻域，并保持CNN的权重分担特性。在某些情况下，这需要为每个节点度学习特定的权重矩阵(Duvenaud等人，2015年)，使用转移矩阵的功率来定义邻域，同时学习每个输入通道和邻域度的权重(Atwood&Towsley，2016)，或者提取包含固定数量节点的邻域并对其进行归一化(Niepert等人，2016)。Monti等人。(2016)提出了混合模型CNNs(MONET)，这是一种空间方法，提供了CNN结构到图的统一推广。最近，汉密尔顿等人。(2017)介绍了GraphSAGE，一种以归纳方式计算节点表示的方法。该技术通过对每个节点的固定大小的邻域进行采样，然后对其执行特定的聚合器(例如，对所有采样的邻居的特征向量的平均值，或者通过递归神经网络馈送它们的结果)来操作。这种方法已经在几个大型归纳基准测试中产生了令人印象深刻的性能。
【注解4】：上述谈到了GCN两种方法，一类是谱方法另一类是非谱方法。
GCN方法又可以分为两大类，基于频谱（spectral-based）和基于空间（spatial-based）。

注意机制在许多基于序列的任务中几乎已经成为事实上的标准(Babdanau等人，2015年；Gehring等人，2016年)。注意力机制的好处之一是，它们允许处理可变大小的输入，将重点放在输入中最相关的部分以做出决定。当使用注意机制来计算单个序列的表示时，它通常被称为自我注意或内部注意。事实证明，与递归神经网络(RNNs)或卷积一起，自我注意在机器阅读(Cheng等人，2016年)和学习句子表征(Lin等人，2017年)等任务中都是有用的。然而，Vaswani等人。(2017)表明，自我注意不仅可以改进基于RNN或卷积的方法，而且足以构建一个强大的模型，在机器翻译任务中获得最先进的性能。

【注解5】：谈到自注意力机制在序列任务中广泛应用，以及它的好处。

受这项最新工作的启发，我们引入了一种基于注意力的体系结构来执行图结构数据的节点分类。其想法是按照自我关注策略，通过关注其邻居来计算图中每个节点的隐藏表示。注意体系结构有几个有趣的性质：(1)操作是有效的，因为它可以跨节点对并行；(2)它可以通过指定邻居的任意权重来应用于具有不同程度的图节点；(3)该模型直接适用于归纳学习问题，包括模型必须推广到完全不可见的图的任务。我们在四个具有挑战性的基准上验证了所提出的方法：CORA，Citeseer和Pubmed引文网络，以及一个归纳的蛋白质-蛋白质相互作用数据集，获得或匹配了最新的结果，这些结果突出了基于注意力的模型在处理任意结构的图时的潜力。

【注解5】：受到启发，引入注意机制到神经网路模型，运用到图结构数据数据的节点分类任务中。
想法：关注节点的邻居节点来计算每个节点的隐藏表示。
模型特点：

（1）计算速高效，可以在不同的节点上进行并行计算；
（2）可以指定邻居节点的任意权重使得同时对拥有不同度的节点进行处理；
（3）可以被直接用于解决归纳学习问题，即可以对从未见过的图结构进行处理。

值得注意的是，与Kipf&Wling(2017年)和Atwood&Towsley(2016年)一样，我们的工作也可以重新制定为莫奈的一个特定实例(Monti等人，2016年)。而且呢，跨边共享神经网络计算让人想起关系网络(Santoro等人，2017)和VAIN(Hoshen，2017)的公式，其中对象或代理之间的关系通过使用共享机制成对聚集。类似地，我们提出的注意力模型可以与段等人的作品联系起来。(2017)和Denil等人。(2017)，其使用邻域注意操作来计算环境中不同对象之间的注意系数。其他相关方法包括局部线性嵌入(LLE)(Roweis&Saul，2000)和存储网络(Weston等人，2014)。LLE在每个数据点周围选择固定数量的邻居，并学习每个邻居的权重系数以将每个点重构为其邻居的加权和。第二个优化步骤提取该点的特征嵌入。内存网络也与我们的工作有一些联系，特别是如果我们将节点的邻域解释为内存，内存用于通过关注节点的值来计算节点特征，然后通过将新特征存储在相同的位置进行更新。

二、GAT架构

在这一部分中，我们将介绍用于构建任意图注意网络的积木层(通过堆叠这一层)，并直接概述其与神经图处理领域以前的工作相比在理论和实践上的优点和局限性。

2.1图注意层

我们将首先描述单个图形注意层，它是我们实验中使用的所有GAT架构中使用的唯一层。我们使用的特殊注意系统紧跟巴达努等人的工作。(2015)-但该框架与特定的注意机制选择无关。
graph attentional layer 的输入为节点的特征集合：

N：节点数
F：每个节点中的特征数。

graph attentional layer 将生成一组新的结点特征。。
graph attentional layer 输出：

N：节点数
节点特征数变为：F’

为了获得足够的表达能力将输入特征转换成更高层次的特征，至少需要一个可学习的线性变换。为此，作为初始步骤，共享线性变换权重矩阵，运用在所有节点上。再为每个节点加上self-attention。
权重矩阵：

然后我们在节点上执行自我注意-一种共享的注意机制a：

利用自注意力机制，然后计算自注意力系数：

这表明了节点j的特征对节点i的重要性。在其最一般的公式中，该模型允许每个节点参与其他节点，而不考虑图结构信息。

为了使系数易于在不同节点之间进行比较，我们使用Softmax函数对所有j选择的系数进行归一化：

在我们的实验中，注意机制a是一个单层前馈神经网络，由一个权向量a∈R 2F’参数化，并应用LeakyReLU非线性(负输入斜率α=0.2)，然后可以表示为：

T:表示转置
||：表示连接

一旦获得，归一化的注意系数被用来计算对应的节点特征的线性组合。再次使用一次非线性变化后，作为每个结点最终的特征输出(可能在之后应用非线性，σ)：

图1：左图：我们的模型采用的注意机制a(Whi，Whj)，由权重向量a∈R2F0参数化，应用LeakyReLU激活。右图：节点1在其邻域上的多头注意(K=3个头)的插图。不同的箭头样式和颜色表示独立的注意力计算。将每个头部的聚合特征进行拼接或平均，得到H0 1。

为了稳定自我注意的学习过程，执行mult-head attention机制，类似于Vaswani等人。K个独立注意机制执行式4的变换，然后将它们的特征连接起来，产生以下输出特征表示：

K:K个独立注意机制
aij K:αk是由第k次注意机制(AK)计算的归一化注意系数
Wk:相应的输入线性变换的权重矩阵。
最终返回的输出:H0将由每个节点的KF’特征(而不是F’)组成。

特别是，如果我们在网络的最后(预测)层上执行多头关注，则串联不再合理-相反，我们使用平均，并延迟应用最终非线性(分类问题通常为Softmax或Logistic Sigmoid)，直到那时：

2.2与相关工作的比较

第2.1小节中描述的图形注意力层直接解决了使用神经网络对图形结构数据建模的现有方法中存在的几个问题：

在计算上，它的效率很高：自我关注层的操作可以跨所有边并行，输出所有节点特征的计算可以跨边并行，不需要特征分解或类似的昂贵的矩阵运算。可以表示单个GAT注意力头部计算F‘特征的时间复杂度为：
其中：
       - F:节点特征数
       - V：图的节点数
       - E：图的边数

这种复杂性与图卷积网络(GCNS)等基线方法不相上下。应用多头注意可以将存储和参数要求乘以K倍，而各个头的计算是完全独立的，并且可以并行化。

与GCNS不同，我们的模型允许(隐式地)为同一邻居的节点分配不同的重要性，从而实现了模型容量（自由
度）的飞跃。此外，与机器翻译领域的情况一样，分析学习到的注意力权重可能会带来可解释性方面的好处。
注意机制以共享方式应用于图中的所有边，因此它不依赖于对全局图结构或其所有节点(特征)的预先访问(许多现有技术的限制)。这有几个可取的含义：
图可以是无向的。该技术直接适用于归纳学习-包括在培训期间完全看不到的图形上评估模型的任务。
最近发表的的归纳方法。对每个节点的固定大小邻域进行采样，以保持其计算足迹的一致性；这不允许它在执行推理时访问整个邻域。此外，当使用基于LSTM(Hochreiter&Schmidhuber，1997)的邻域聚合器时，该技术获得了一些最强的结果。这假设存在跨邻域的一致顺序节点排序，并且作者已经通过一致地将随机排序的序列馈送到LSTM来纠正它。我们的技术没有这两个问题中的任何一个-它与整个邻居一起工作(代价是可变的计算空间，这仍然与GCN之类的方法相当)，并且不假定其中的任何顺序。
如第1节所述，GAT可以重新表述为Monet的一个特定实例。更具体地说，将伪坐标函数设置为u(x，y)=f(X)||f(Y)。
其中f(X)表示节点x的(潜在MLP变换的)特征
权函数为Wj(U)=Softmax(MLP(U))
会使莫奈的补丁操作员和我们的类似。然而，需要注意的是，与之前考虑的Monet实例相比，我们的模型使用节点特征进行相似性计算，而不是使用节点的结构属性

我们可以产生利用稀疏矩阵操作的GAT层转换，在节点和边的数量上将存储复杂度降低到线性，并且使得能够在更大的图数据集上执行GAT模型。然而，我们使用的张量操作框架只支持秩2张量的稀疏矩阵乘法，这限制了当前实现的层的批处理能力(特别是对于具有多个图的数据集)。妥善解决这一制约因素，是今后工作的重要方向。根据图表结构的规律性，在这些稀疏情况下，GPU可能无法提供与CPU相比的主要性能优势。还应该注意的是，我们模型的“接受场”的大小是网络深度的上限(与GCN和类似模型类似)。然而，跳跃连接(他等人，2016)等技术可以很容易地应用于适当延长深度。最后，跨所有图的边的并行化，特别是以分布式的方式，可能涉及大量的冗余计算，因为在感兴趣的图中，邻域通常会高度重叠。

三、 EVALUATION

作者实验中使用的数据集的摘要。

3.1数据集

Transductive learning：我们利用三个标准的引文网络基准数据集-Cora，Citeseer和Pubmed(Sen等人，2008年)-并密切遵循Yang等人的转导实验设置。(2016年)。在所有这些数据集中，节点对应于文档，边对应于(非定向)引用。节点特征对应于文档的词袋表示的元素。每个节点都有一个类标签。我们允许每类只有20个节点用于训练-然而，考虑到换能式设置，训练算法可以访问所有节点的特征向量。在1000个测试节点上评估了训练模型的预测能力，为了验证目的，我们使用了500个额外的节点(与Kipf&Wling(2017)使用的节点相同)。CORA数据集包含2708个节点、5429条边、7个类和每个节点1433个要素。Citeseer数据集包含3327个节点、4732条边、6个类和每个节点3703个要素。PUBMED数据集包含19717个节点、44338条边、3类和每个节点500个特征。

Inductive learning：我们利用了蛋白质-蛋白质相互作用(PPI)数据集，该数据集由对应于不同人体组织的图表组成(Zitnik&Leskovec，2017)。该数据集包含20个用于训练的图表、2个用于验证的图表和2个用于测试的图表。关键的是，测试图形在训练过程中完全不会被观察到。为了构造图形，我们使用了Hamilton等人提供的预处理数据。(2017年)。每个图形的平均节点数为2372。每个节点有50个特征，由位置基因集、基序基因集和免疫学特征组成。从分子签名数据库(Subramanian et al.，2005)收集的来自基因本体的每个节点集合有121个标签，并且一个节点可以同时拥有几个标签。

3.2最先进的方法

Transductive learning ：对于传导性学习任务，我们与Kipf&Wling(2017)中指定的相同的强大基线和最先进的方法进行比较。这包括标签传播(LP)(朱等人，2003)、半监督嵌入(SemiEmb)(Weston等人，2012)、流形正则化(ManiReg)(Belkin等人，2006)、基于跳过图的图嵌入(DeepWalk)(Perozzi等人，2014)、迭代分类算法(ICA)(Lu>oor，2003)和行星(Yang等人，2016)。我们还直接将我们的模型与GCNS(Kipf&Wling，2017)、利用高阶Chebyshev滤波器的图形卷积模型(Defferrard等人，2016年)以及Monti等人提出的Monet模型进行了比较。(2016年)。
Inductive learning：对于归纳学习任务，我们与Hamilton等人提出的四种不同的有监督GraphSAGE归纳方法进行了比较。(2017年)。这些提供了聚集采样邻域内的特征的各种方法：GraphSAGE-GCN(其将图形卷积样式的操作扩展到归纳设置)，
GraphSAGE-LSTM(通过将邻域特征馈入LSTM进行聚合)和GraphSAGE-POOL(对共享的非线性多层感知器变换的特征向量进行元素级最大化操作)。其他传导性方法要么在归纳设置中完全不合适，要么假设节点被递增地添加到单个图形，使得它们对于在训练期间完全看不到测试图形(例如PPI数据集)的设置不可用。
此外，对于这两个任务，我们提供了按节点共享的多层感知器(MLP)分类器的性能(完全不包含图形结构)。

3.3实验设置

【注解】实验分为 transductive 和 Inductive learning 两个部分

transductive（两层GAT）：

第一层：

- K = 8

- F` = 8，每个节点计算64个特征。
- 使用ELU非线性函数

第二层分类层–用于分类：
       k = 1
       计算c个特征（c为类别数目）
       softmax函数
       L2正则项的值λ=0.0005 （在小的训练集加上正则化，避免欠拟合）。
       两层均用p=0.6的dropout（计算每个节点位置的卷积时，随机选取部分邻近节点进行卷积）

Inductive learning（3层GAT）：

前两层：K=4，4 个注意头组成
- 计算F’=256个特征（一共有1024个特征）
- ELU作为非线性函数
最后一层用于(多标签)分类：
· K=6个注意头，每个注意头计算121个特征，随后去平均，logistics sigmoid 激活函数激活用于分类。

数据集够大，无需L2正则化，成功使用了skip connection（跨过中间一些层传递信息）训练使用了两个图的大小。为了验证attention机制的好处，作者在这里还设了对比组，将所有a(x,y)=1。
这两个模型都使用Glorot初始化(Glorot&Bengio，2010年)进行初始化，并使用Adam SGD优化器(Kingma&Ba，2014年)进行训练，以最小化训练节点上的交叉熵，Pubmed的初始学习率为0.01%，所有其他数据集的初始学习率为0.005。在这两种情况下，我们都对交叉熵损失和验证节点上的准确度(transductive)或micro-F1(inductive)分数使用提前停止策略，100 epochs。

3.4实验结果

对于 transductive 任务，我们在100次运行后报告了我们方法测试节点的平均分类精度(带有标准偏差)，并重用了Kipf&Well(2017)和Monti等人已经报告的度量。(2016)最先进的技术。具体地说，对于基于切比雪夫过滤器的方法(Defferrard等人，2016年)，我们提供了K=2和K=3阶的过滤器的最大报告性能。为了公平地评估注意机制的好处，我们进一步评估了一个计算64个隐藏特征的GCN模型，尝试REU和ELU激活，并报告(如GCN-64∗)100次运行后的更好结果(这在所有三种情况下都是REU)。
对于归纳任务，我们报告了两个不可见测试图节点上的micro-averaged F1得分，在10次运行后平均，并重用了Hamilton等人已经报告的度量。(2017)用于其他技术。

具体地说，当我们的设置受到监督时，我们将与受监督的GraphSAGE方法进行比较。为了评估聚合整个邻域的好处，我们进一步提供(作为GraphSAGELSTM)，我们可以通过修改GraphSAGE的体系结构(这是一个三层的GraphSAGE-∗，在每一层中计算出[512512726]个特征和用于聚合邻域的128个特征)来获得我们能够获得的最佳结果。最后，我们报告了我们的恒定注意力GAT模型(Const-GAT)的10次运行结果，以公平地评估注意力机制相对于类似GCN的聚集方案(具有相同的体系结构)的好处。

我们的结果成功地展示了在所有四个数据集中实现或匹配的最先进的性能-与我们的预期一致，正如第2.2节中的讨论所述。更具体地说，我们能够在CORA和Citeseer上分别比GCNS提高1.5%和1.6%，这表明为同一邻居的节点分配不同的权重可能是有益的。值得注意的是，在PPI数据集上实现的改进：我们的GAT模型改进了20.5%w.r.t。这是我们能够获得的最好的GraphSAGE结果，表明我们的模型具有应用于归纳设置的潜力，并且可以通过观察整个邻域来利用更大的预测能力。此外，itimprovess3.9w.r.t.。Const-GAT(具有恒定注意机制的相同架构)，再次直接证明了能够为不同邻居分配不同权重的重要性。

还可以定性地研究学习的特征表示的有效性，为此，我们提供由在CORA数据集上预先训练的GAT模型的第一层提取的t-SNE(Maten&Hinton，2008)变换的特征表示的可视化(图2)。该表示在投影的2D空间中表现出可辨别的群集。注意，这些聚类对应于数据集的七个标签，验证了模型对CORA的七个主题类的区分能力。此外，我们还可视化了归一化注意力系数的相对强度(所有八个注意力头部的平均值)。正确解释这些系数(如由巴赫达努等人执行的)。(2015)将需要关于正在研究的数据集的进一步领域知识，将留待今后的工作。

表3：关于PPI数据集的结果摘要，以微平均化的F1分数表示。GraphSAGE∗对应于我们只需修改其架构就能获得的最佳GraphSAGE结果。CONST-GAT对应于一个与GAT具有相同架构的模型，但具有恒定的注意机制(赋予每个邻居相同的重要性；类似GCN的归纳运算符)。

四、结论

我们提出了图形注意网络(GATS)，这是一种新型的卷积式神经网络，它利用掩蔽的自我注意层对图形结构的数据进行操作。在这些网络中使用的图注意层在计算上是有效的(不需要昂贵的矩阵运算，并且可以在图中的所有节点上并行化)，允许(隐式地)在处理不同大小的邻域的同时向邻域内的不同节点分配不同的重要性，并且不依赖于预先知道整个图结构-从而用先前基于谱的方法解决了许多理论问题。我们利用注意力的模型已经成功实现或匹配了四个公认的节点分类基准(包括传导性和感应性)的最先进性能(特别是在用于测试的完全看不见的图形的情况下)。对图形注意网络有几个潜在的改进和扩展，可以作为将来的工作来解决，例如克服第2.2节中描述的实际问题，以便能够处理更大的批次大小。一个特别有趣的研究方向是利用注意机制对模型的可解释性进行彻底的分析。此外，从应用的角度来看，将该方法扩展到执行图分类而不是节点分类也是相关的。最后，扩展模型以包含边特征(可能指示节点之间的关系)将允许我们处理更多种类的问题。

图2：CORA数据集上预先训练的GAT模型的第一个隐藏层的计算特征表示的t-SNE图。节点颜色表示类。边缘厚度表示节点i和j之间跨越所有八个注意力头部的聚合的归一化注意力系数(Pk k=1αki+αk ji)。
！1！1111

内容来自用户分享和网络整理，不保证内容的准确性，如有侵权内容，可联系管理员处理

标签：

相关文章推荐

新的分享

章节导航