回到主页

目录

▶︎
all
running...

SEMI-SUPERVISED CLASSIFICATION WITH GRAPH CONVOLUTIONAL NETWORKS

Abstract:

1. INTRODUCTION(介绍)

考虑分类一个图结构中的节点的问题,标签仅在节点中部分子集中已知。该问题即为基于图的半监督学习问题,其中的标签信息通过某种形式的显式基于图的正则化对图进行平滑(4篇论文)得到。例如:在损失函数中使用一个图拉普拉斯正则化项:

L=L0+λLreg, with Lreg=i,jAijf(Xi)f(Xj)2=f(X)Δf(X)(1)\mathcal{L}=\mathcal{L}_{0}+\lambda \mathcal{L}_{\mathrm{reg}}, \quad \text { with } \quad \mathcal{L}_{\mathrm{reg}}=\sum_{i, j} A_{i j}\left\|f\left(X_{i}\right)-f\left(X_{j}\right)\right\|^{2}=f(X)^{\top} \Delta f(X)\qquad(1)

其中:

方程的公式(1)依赖于图中连接的节点可能共享相同标签的假设。然而,这种假设可能会限制建模能力,因为图边不一定需要编码节点相似性,但可能包含附加信息。

而本文工作直接使用神经网络模型f(X,A)f(X, A)对图形结构进行编码,在有监督的目标L0\mathcal{L}_{0}上训练,从而避免了损失函数中显式的基于图的正则化。图的邻接矩阵上的条件f()f(·)将允许模型从有监督的损耗L0\mathcal{L}_{0}中分配梯度信息,并使其能够获得有标签和无标签节点的表示形式。

本文贡献两点:

对大量数据集的实验表明,与目前最先进的半监督学习方法相比,本文的模型在分类精度和效率方面都有优势。

2. FAST APPROXIMATE CONVOLUTIONS ON GRAPHS(图上的快速近似卷积)

在本节中,我们提供了一个特定的基于图的神经网络模型的理论动机,该模型f(X,A)f(X, A)将贯穿后文。我们考虑一个具有以下逐层传播规则的多层图卷积网络(GCN):

H(l+1)=σ(D~12A~D~12H(l)W(l))(2)H^{(l+1)}=\sigma\left(\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} H^{(l)} W^{(l)}\right)\qquad(2)

其中A~=A+IN\tilde{A}=\mathbf{A}+\mathbf{I}_N表示插入自循环的邻接矩阵,D^ii=j=0A~ij\hat{D}_{i i}=\sum_{j=0} \tilde{A}_{i j}是它的对角度矩阵。

下面,我们证明了这种传播规则的形式可以通过图上局部谱滤波器的一阶近似得到。

2.1 SPECTRAL GRAPH CONVOLUTIONS(谱图卷积)

我们把图上的谱卷积定义为在傅里叶域上信号xRNx\in R^N(每个节点上都是标量)和以θRN\theta\in R^N为参数的滤波器gθ=diag(θ)g_{\theta}=\operatorname{diag}(\theta)的乘法,即:

gθx=UgθUx(3)g_{\theta} \star x=U g_{\theta} U^{\top} x \qquad (3)

回到带有滤波器gθg_{\theta'}的信号xx的卷积的定义,现在可得:
gθxk=0KθkTk(L~)x(5)g_{\theta^{\prime}} \star x \approx \sum_{k=0}^{K} \theta_{k}^{\prime} T_{k}(\tilde{L}) x \qquad (5)
其中L~=2λmaxLIN\tilde{L}=\frac{2}{\lambda_{\max }} L-I_{N}。通过(UΛU)k=UΛkU\left(U \Lambda U^{\top}\right)^{k}=U \Lambda^{k} U^{\top}可验证该式。注意,这个表达式现在是KK阶局部化的,因为它是拉普拉斯多项式中的一个KK阶多项式,也就是说,它只依赖于距离中心节点(KK阶邻域)最大KK步的节点。等式(5)的复杂度是O(ϵ)O(\epsilon),即与边数线性相关。

(Defferrard et al., 2016)Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering使用这个kk局部卷积在图上定义卷积神经网络。

2.2 LAYER-WISE LINEAR MODEL(层级线性模型)

基于图卷积的神经网络模型可以通过将多个卷积层叠加成式(5)的形式,每一层叠加一个逐点非线性操作。现在,假设我们将逐层卷积运算限制为K=1K = 1(见式5),即一个基于LL的线性函数,也就是图拉普拉斯谱上的一个线性函数。

在这个GCN的线性公式中,进一步近似λmax2\lambda_{max}\approx 2,我们可以预期神经网络参数在训练过程中会适应这种尺度的变化。在这种近似下式(5)可以简化为:
gθxθ0x+θ1(LIN)x=θ0xθ1D12AD12x(6)g_{\theta^{\prime}} \star x \approx \theta_{0}^{\prime} x+\theta_{1}^{\prime}\left(L-I_{N}\right) x=\theta_{0}^{\prime} x-\theta_{1}^{\prime} D^{-\frac{1}{2}} A D^{-\frac{1}{2}} x\qquad(6)
其中有两个自由参数θ0\theta_{0}^{\prime}θ1\theta_{1}^{\prime}。过滤器参数可以在整个图中共享。这种形式的滤波器的连续应用有效地对一个节点的kk阶邻域进行卷积,其中kk为神经网络模型中连续滤波操作或卷积层的个数。

在实践中,进一步限制参数的数量以解决过拟合问题,并将每层操作的数量(如矩阵乘法)最小化可能得到有益的结果。这就剩下了下面的表达式:
gθxθ(IN+D12AD12)x(7)g_{\theta} \star x \approx \theta\left(I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}\right) x\qquad(7)
其中的单一参数θ=θ0=θ1\theta=\theta_{0}^{\prime}=-\theta_{1}^{\prime}。注意IN+D12AD12I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}}的特征值的范围变为[0,2][0,2]。因此,当在深度神经网络模型中使用该算子时,重复使用该算子会导致数值不稳定性和爆炸/消失梯度。为了缓解这个问题,我们引入了以下重正态化技巧IN+D12AD12D~12A~D~12I_{N}+D^{-\frac{1}{2}} A D^{-\frac{1}{2}} \rightarrow \tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}},其中A~=A+IN\tilde{A}=A+I_{N} 并且 D~ii=jA~ij\tilde{D}_{i i}=\sum_{j} \tilde{A}_{i j}

可以把这个定义推广到具有CC个输入通道的信号上XRN×CX \in \mathbb{R}^{N \times C}FF滤波函数如下:

Z=D~12A~D~12XΘ(8)Z=\tilde{D}^{-\frac{1}{2}} \tilde{A} \tilde{D}^{-\frac{1}{2}} X \Theta\qquad(8)

该筛选操作的时间复杂度为O(EFC)\mathcal{O}(|\mathcal{E}| F C)

3. SEMI-SUPERVISED NODE CLASSIFICATION(半监督节点分类)

引入了一个简单而灵活的模型f(X,a)f(X, a)来有效地在图上传播信息,现在可以回到半监督节点分类问题。

3.1 EXAMPLE(样例)

Z=f(X,A)=softmax(A^ReLU(A^XW(0))W(1))(9)Z=f(X, A)=\operatorname{softmax}\left(\hat{A} \operatorname{ReLU}\left(\hat{A} X W^{(0)}\right) W^{(1)}\right)\qquad(9)

其中,W(0)RC×HW^{(0)} \in \mathbb{R}^{C \times H}是一个具有HH特征映射的隐含层的输入-隐藏权矩阵。W(1)RH×FW^{(1)} \in \mathbb{R}^{H \times F}是一个隐藏到输出的权重矩阵。

5. EXPERIMENTS(实验)

我们通过一系列实验对模型进行了测试:

5.1 DATASETS(数据集)

本文使用Yang等人(2016)的实验设置。数据集统计汇总如表1所示。在引文网络数据集中:

引文网络 我们考虑了三种引文网络数据集:Citeseer、Cora和Pubmed (Sen et al., 2008)

NELL NELL是从引入的知识图中提取的数据集(Carlson et al., 2010)

随机图 模拟各种大小的随机图数据集,用于测量每个历元的训练时间

5.2 EXPERIMENTAL SET-UP(实验设置)

对于引文网络数据集

5.3 BASELINES(基线)

6. RESULTS(结果)

结果如表2所示。报告的数字表示分类精度(以百分比表示):

可以看出,本文方法结果最好

6.2 EVALUATION OF PROPAGATION MODEL(评价传播模型)

6.3 TRAINING TIME PER EPOCH(每批的训练时间)

7. DISCUSSION(讨论)

8. ACKNOWLEDGMENTS(致谢)

感谢Tony Thrall和Isabella Barbier设计了该工作的数据采集。