异构图卷积网络研究进展

2021-05-14 06:28贾香恩董一鸿钱江波

计算机工程与应用 2021年9期

贾香恩，董一鸿，朱锋，钱江波

宁波大学信息科学与工程学院，浙江宁波315211

深度学习已经在各个领域取得巨大的进展。尽管深度学习能提升欧几里德数据分析效果，但是传统的深度学习方法对于非结构化的图数据却不适用。在现实世界中普遍存在着网络关系，如社交网络[1]、蛋白质相互作用网络[2]和用户与商品交互网络[3]等，这些网络中存在相互作用的节点信息和边的信息。近年来，图挖掘是数据挖掘领域的研究热点，引起了许多学者和工业界的关注。如在电子商务中，基于用户与商品的交互图构建的推荐系统模型，给用户提供实时的商品推荐服务。这些图数据分析的复杂性给机器学习领域带来了挑战。由于图数据的不规则，节点的邻居数目不固定且无序，不能直接利用卷积神经网络提取其中的特征。为此构建了图卷积网络用来处理图数据。图卷积网络有三个关键点[4]：（1）处理的图数据是一种局部结构；（2）网络中的权重共享，降低训练成本；（3）多层结构设计，适应不同的数据特征。为了挖掘图数据中的各种语义信息，适应不同的任务，图卷积网络迅速发展，已经成为图表示学习的最重要的方法之一。

图卷积网络应用于很多的信息网络分析中，现在大多数工作将网络构建成为同构信息网络，即在一个网络中节点和其连接关系只有一种类型，没有表达出其中的异构性，造成了不可逆的信息损失。然而，现实中的大多数网络是异构的，网络中有不同的节点类型和不同的边类型，其中的异构性蕴含大量的语义信息。如图1，在电影数据网络中将电影、导演和演员作为节点，其中存在电影和导演之间，指导和被指导的关系、演员和电影之间存在出演和演出的关系。在图挖掘的网络中，应该保留这种丰富的语义关系和结构，可以使获得的语义信息更加丰富。相较于同构网络，异构网络中的异构性对于网络分析十分重要。在大数据时代中，异构网络更符合现实场景的结构化数据的建模，如在电商数据中，将商品与用户看成两种不同类型的节点，并构建两种不同的连接关系：购买和被购买的关系。很自然地将现实场景中网络构建成异构网络。并且在异构网络中融合更丰富的语义信息，包含不同的节点类型和链接语义。

图1 电影信息网络

异构网络具有融合各种语义信息的优势，已经成为图数据挖掘中的热点问题。但是，其中的异构性给建模带来了更高的要求。有许多研究者为了捕捉其中的异构性信息，将异构网络和图卷积网络在图数据中的信息提取能力结合，将学习到的嵌入向量应用到下游任务，其性能得到了显著的提升。异构网络也在各领域广泛应用，如电商平台和网络异常检测中，其性能也到了提升。

目前已有一些文献对异构网络表示学习进行了综述。文献[5]是从模型角度进行了总结，提出了四个基准的数据集，并给出了一些开源源码。也有一些作者对图卷积网络的方法即应用进行了阐述，如文献[4]阐述图卷积网络的发展应用和未来工作。目前，还没有针对异构图卷积网络方法的总结性工作。

本文针对异构网络和图卷积网络结合的方法进行总结，整理了图卷积网络的发展历程，介绍两类异构图卷积网络表示学习模型以及应用场景，并基于发展趋势和已有的工作，进一步提出未来的发展方向。

1 异构图卷积网络发展

在传统的网络表示学习[6]中，将忽略其网络的节点和边的类型构成的同构网络作为建模网络数据。模型将网络中的节点表示成为低维稠密的向量，使得向量在空间中具有表示和推理能力。来自于自然语言处理中词嵌入技术的灵感，在2014 提出了里程碑式的工作Deepwalk[7]，将随机游走与skip-gram[8]结合建立了深度游走模型来表示节点嵌入向量。Node2vec[9]选用有偏参数来控制游走策略更倾向于深度游走还是广度游走，来提高网络的嵌入效果。为了更好地适应近邻稀疏性的网络，LINE[10]利用二阶邻居相似度丰富一阶邻居相似度语义。现实中的网络节点上有丰富的文本属性信息，TADW[11]结合结构和属性进行表示学习用来获得更丰富的语义。并且节点之间存在着非线性的关系，SDNE[12]认为可以利用深度自编码器保持二阶邻居的相似性，来捕捉这种非线性关系和局部关系。然而随着节点数量的增大，自编码器的参数数量也随之增加，导致自编码器的效率较低。图卷积网络（GCN[13]）使用了共享聚合参数，可以从图的结构对信息进行聚合。GAT[14]用注意力机制对邻近节点特征进行加权求和，其权重完全依赖于节点特征，独立于结构。为了适应大规模网络表示学习，GraphSAGE[15]使用一种归纳学习的方式进行训练。近些年来，一些文献中提出了通用的框架，如MPNN[16]将图卷积网络模型总结为消息传递和节点更新这两个阶段；概括了很多图卷积网络的NLNN[17]模型；更加灵活通用的GN[18]模型。GCN的出现加速了整个网络表示学习的发展。

大多数现实中的网络都是包含不同的节点类型和边类型的异构网络，多类型对象之间蕴含着丰富的语义信息。在传统的异构网络挖掘中，首先要在网络上定义元路径，然后将其作为机器学习模型的特征。为了更好捕获这种图异构性，Metapath2vec[19]被提出，其采用基于元路径随机游走的方式，元路径限定其只能在特定的节点类型之间游走，利用负采样的skip-gram 来学习节点的嵌入表示。HIN2VEC[20]直接将元路径视为上下文来学习节点嵌入。HEER[21]从多个空间考察语义关系。结合注意力机制的GATNE[22]将该框架拓展到多路异构网络，并且TapEm[23]进一步将节点对与元路径的嵌入结合。HERec[24]模型根据自定义的元路径，将异构网络在多个维度投影，然后在每个投影中使用Metapath2vec学习节点嵌入，然而HueRec[25]方法认为不同的元路径之间存在相互关系，并将它们统一到一个端到端的框架中。许多基于skip-gram 嵌入模型为了加快网络学习，APE[26]采用负采样的方式训练网络。进一步，基于对抗生成网络的HeGAN[27]的生成器目标是学习节点分布，进而在异构网络中生成更好的负样本。这些方法都是基于网络结构的异构性，来获取其中的语义信息。

2 异构图卷积网络

图卷积网络在图表示学习的很多任务中都表现优越。相较于传统的浅层模型，图卷积网络能在信息网络中捕捉更复杂的非线性关系，并且能提取出更丰富的语义。近些年，一些学者将图卷积网络与异构网络挖掘中的一些方法结合，在节点分类、链路预测等任务上取得了较好的结果。因此，图卷积网络已经成为异构网络挖掘的主流方法，成为工业界和学术界的研究热点。本文将异构图卷积网络模型总结为基于元路径和自适应异构信息这两种方法。其中，基于元路径的方法通过邻域专家定义元路径，将异构图转为同构图进行处理；自适应异构信息的方法能自适应获取图中的异构信息，不需要元路径的参与。

2.1 基于元路径

随机游走在同构网络中，表现的是节点之间的可达性，反映的是网络的结构信息。在同构网络中节点类型和边类型是相同的，然而在异构网络中有更丰富的语义信息，其节点和边的类型是不同的。如图1，在电影信息网络中，有演员（A）、电影（M）和导演（D）这三种类型的节点，其中有演员和电影之间有出演关系和导演与电影之间有指导关系等语义关系。为了刻画异构网络更复杂的语义，提出了基于元路径随机游走的方法。通过定义特定语义的元路径用于提取网络中丰富的语义信息。比如在电影信息网络中，定义元路径AMA 表示的是演员共同出演的语义信息，定义元路径MDM表示的是由相同导演指导的语义信息。不同的元路径代表着不同的语义信息，在元路径指导下的随机游走更能反映出节点序列的特定意义。HAN[28]结合元路径提出了基于层次化注意力机制的异构图卷积网络，其中涉及节点级和语义级的注意力机制，如图2。节点级注意力网络主要学习节点在相同元路径下邻居节点间的权重，并通过加权求和来获取节点嵌入。

每种元路径只代表特定语义信息，在获取单个元路径的节点嵌入后，通过语义级注意力机制融合不同的语义信息。首先通过非线性转化，将嵌入的重要性转换为嵌入的相似度来度量，再通过注意力机制获取节点的表示向量。类似于HAN的分层注意力机制，HAHE[29]使用了元路径注意力层和路径实例化注意力层两层的注意力机制。元路径注意力层学习的是每个节点在元路径上的个性化偏好，而路径实例化注意力层能捕获节点在特定语义空间上的偏好信息，并基于半监督学习的方式进行训练。

Meta-GNN[30]使用多层的元图卷积层，并利用元图注意力机制为每个元图节点分配权重，其在更高的层面对异构网络进行建模分析并能获取全局的语义信息。Meta-GNN 先使用基于元图的图卷积网络来获取基于元图的节点嵌入向量，再利用注意力机制融合元图节点来获取最终的节点向量。

以上模型都是在异构图上定义多个元路径或元图，捕获路径之间的复合关系并指导邻居选择。但是在这些模型中，有的忽略了节点的内容特性，有的模型在元路径随机游走过程中忽略了中间的节点。MAGNN[31]提出通过节点内容转换来封装节点属性，再利用元路径内部聚合来获取中间节点的语义，最后使用元路径间的聚合来结合多个元路径的消息，从而削弱单个元路径对嵌入表示的影响，如图3。为了捕获到异构图上的高阶语义，HOHGCN[32]基于元路径设计了高阶异构图卷积网络，不仅能获取一些元路径的语义，而且还捕获重要的高阶元路径的高阶关系，如图4。它还设计了一种高阶元路径的邻接矩阵的计算方式，在每一步的消息聚合中，都会线性聚合高阶基于元路径的邻居信息，此模型也适用于大规模异构图。

图2 HAN模型框架

图3 MAGNN模型框架

图4 HOHGCN模型框架

为了保留更多异构网络中的结构信息和语义信息，MetaGATE[33]基于多个元路径随机游走并结合skip-gram模型进行预训练。然后，通过图注意力网络来聚合异构信息，挖掘更高层次的语义。为了保证模型的稳定性，模型将多个独立的自注意力过程的嵌入串联形成节点向量。GraphInception[34]利用元路径将异构图转换为多通道网络，再通过图卷积网络学习每个通道节点嵌入。GraphInception 为了平衡关系特征的复杂程度，将传统的Inception 模型迁移应用到非欧式数据中。此模型能自动生成从简单到复杂关系的层次结构，能有效地学习网络中关系的有效特征，最后将所有卷积结果拼接形成最后的嵌入向量。

以上提及的异构图卷积网络模型都需要手工构建元路径，路径的选择对于模型的准确率造成很大的影响。为了准确提取网络中有价值的语义信息，GTNs[35]可以在图上识别未直接连接节点之间的有用连接，通过转换器来学习有用的多条连接，将输入的图转化为对任务有用的元路径图。GTNs 首先通过图转换器挑选出有用的元路径，然后再通过多个图变换层堆叠来获取元路径的表示，最后通过拼接操作得到节点的嵌入表示，如图5。

图5 GTNs模型框架

大多数的异构网络中包含了多种类型的节点和边，但是其节点的属性只有一种。然而对于多重属性异构网络，每个节点都有不同的属性。其网络中的节点之间存在着多种关系连接，产生了多视图的网络，建模网络信息需要面临复用边、归纳学习和可扩展性这三个问题。GATNE[22]提出了GATNE-T 和GATNE-I 分别处理直推式学习和归纳学习，来解决这三个问题。其中GATNE-T 聚合邻居节点的信息，利用注意力机制为每种类型的边都分配对应的注意力。GATNE-I 将节点的嵌入分为三个部分，分别为基向量、边向量和属性向量，其中基向量和属性向量是共享的；边向量是由邻居聚合信息得到，最后通过元路径指导下的随机游走结合skip-gram 模型进行优化。GATNE 解决了在多重属性异构网络建模挖掘的问题，并在实际的推荐系统中落地应用。

对于现有的面向异构网络的图卷积网络仍然存在两个缺陷：（1）无法探索所有可能的元路径，也无法提取最有效的元路径，不仅影响了可解释性而且影响模型的有效性。（2）利用中间元路径生成稠密图，导致了较高的计算时间复杂度。为了应对以上问题，ie-HGCN[36]，采用分层聚合的架构，首先进行对象级聚合，然后进行类型级聚合，这个模型可以为每个对象提取有用的元路径，从而使模型具有很好的解释性。并且模型避免了异构网络的变换，从而提高了模型的计算效率。在异构网络挖掘中，尽管基于元路径的方法已经取得了很大的成功，但是大多数的方法如HAN[28]、HAHE[29]和MAGNN[31]等仍然要依赖于领域专家定义元路径。然而，人工很难详尽地选择有价值的元路径。并且基于元路径生成节点对的过程中，一些模型没有考虑元路径内部的节点，其中蕴含的信息会被丢失导致嵌入效果较差。HAN在将异构网络转化为多个基于元路径的图时，只考虑元路径两端的邻居节点，没有采用中间节点，造成中间节点信息丢失。MAGNN虽然考虑元路径内部结构，但是依然需要人工构建元路径。相对于人工构建元路径，GTNs 能自动生成元路径，其在节点分类任务中的性能已经超过了HAN。这些模型均在元路径层面上对异构网络进行建模分析，Meta-GNN 利用多层元图卷积层，在更高的层面上对异构网络进行分析，拓展了模型的感受野，从而能捕获网络中的高阶语义关系。

2.2 自适应异构信息

现有的异构网络挖掘的建模方法，大多数是基于元路径将异构图转化为同构图进行处理。这些方法构建同构图时非常耗时，而且在选取元路径需要领域专家知识，并且很难选取有价值的元路径。通过元路径构建同构图可能会损失语义信息，冗余的元路径将会给模型带来噪声信息，影响模型的性能。基于此提出了HetGNN[37]，首先通过随机游走采样固定的邻居，并按照邻居类型分类，提取出每种邻居类型中出现频率最高的节点，再按照不同属性来编码异构信息，然后按照不同的邻居类型分别聚合节点信息，最后通过注意力机制来融合节点信息获取最终的嵌入向量。由于随机游走采样邻居花费计算时间成本较大，HetSANN[38]模型提出不需要游走采样，直接对异构网络进行建模分析。其使用类型感知注意力层，将在不同语义空间上的节点转换到相同的低维空间上，然后使用注意力机制在此语义空间上对邻居进行聚合。HetSANN的聚合是基于节点之间的直接连边，而不是元路径，对于不同的异构图都能自适应学习其中的异构性和结构信息。相比于对节点类型的感知的HetSANN，RSHN[39]是对关系结构感知异构图卷积网络。其通过粗化的线性图卷积网络，挖掘以边为中心的关系结构特征，获取不同类型边的潜在关联。之后，利用异构图卷积网络获取异构图中相邻节点间传播的边的隐含信息。因此，不同类型的节点和边可以通过相互融合来增强其嵌入性。区分关系类型的模型能更好地捕捉异构网络中的结构信息。由于异构网络中有很少的监督信息，为了最大程度利用有监督的信息，ActiveHNE[40]提出了鉴别性的异构网络和异构网络主动查询，主要考虑的是节点的异构性，将异构图分解为多个只有两种节点类型构成的子图。ActiveHNE 分别学习节点在每个子图中的嵌入，通过网络中心度、卷积信息熵和卷积信息密度结合强化学习中的多臂老虎机机制，从异质图中选取有价值的节点，利用这些节点可以更好地学习节点嵌入表示。通过网络输出的节点嵌入拼接得到节点的最终的表示。

相较于ActiveHNE，R-GCN[41]考虑的是边的异构信息。对于多种边类型的异构图，每种边对应一个可学习的权重矩阵，如图6。在消息传递的过程中，基于相同边类型相连的邻居将被聚合在一起并被归一化处理。为了防止由于关系过多产生过拟合，R-GCN 采用基参数化减轻稀疏关系过拟合问题。在R-GCN的基础上，将聚合邻居的方式替换为注意力机制方式，构建出R-GAT[42]模型，有更好的表现效果。R-GCN 和R-GAT 更适合稀疏边的异构网络。大多数的模型都将所有的关系嵌入到模型中，没有区别考虑不同类型的关系，不能充分挖掘异构网络中的信息。异构图中的节点和边有不同的类型，其中蕴含着不同的语义信息。多关系网络建模更符合实际的应用价值，类似于R-GCN，CompGCN[43]设计了一种针对多关系的图卷积网络，同时来学习节点和关系的表示。为了降低大量的类型关系带来参数的增长，CompGCN 设计一种分解操作，将关系表示为一组加权组合，这样参数的数量只和基的数量有关。以上的模型都是使用节点或边缘类型来确定权重矩阵，对于那些没有足够出现次数的关系，很难学习到准确的关系特定权重，导致模型不能充分挖掘异构图中关系之间交互的语义。HGT[44]提出了基于消息传递的方式，通过多层图卷积网络将高阶邻接信息纳入其中。为了解决异构性问题，通过依赖于节点和边的类型引入注意力机制。而且结合相对时间编码能够处理动态异构图，增强了HGT。为了应对大规模数据，HGT 设计了异构子图采样算法——HGSampling。这种算法与传统的采样算法不同，可以使得不同节点类型采样保持相似分布，并且信息损失小。

图6 R-GCN模型框架

自适应异构信息的方法不需要领域专家定义元路径，直接在异构图上进行建模分析。其中，HetGNN 通过随机游走采样邻居，按邻居类型进行聚合，但是其计算复杂度较高。面对这个问题，HetSANN 将不同的类型节点转换到同一语义空间，通过注意机制进行节点聚合，直接对异构网络进行分析。相对于感知节点类型的模型，RSHN 是对关系结构感知的异构图卷积网络，可以获取异构图中相邻节点间边的隐含信息，能增强网络的嵌入性。ActiveHNE 将异构网络分解成多个只有两种节点的子图，分别进行建模分析，也不需要随机游走采样序列。对于蕴含多关系和多类型节点的异构网络，R-GCN 和CompGCN 等单独为某类型的节点或边分配可学习的矩阵，但是会造成不能充分挖掘异构信息。HGT 采用节点类型和边类型有依赖的注意力机制，通过不同的边类型连接的节点可以传递和交互信息，并且可以跨越不同层次获取高阶信息。HGT还可以结合相对时间编码处理动态异构网络。但是大多数自适应异构信息网络的参数较多，造成计算复杂度较高并且难以训练。一些学者面对此问题做出了尝试，如CompGCN利用分解操作，将关系表示为一组加权组合使得参数的数量只和基的数量有关。

2.3 聚合方法

图卷积网络中的聚合方法将邻居信息进行整合，形成节点表示向量，其中不仅蕴含本身节点的特征还有邻居节点的特征，如图7。应用于同构网络分析的图卷积网络，其聚合方法有平均、最大化、LSTM和注意力机制聚合等。如在GraphSage[15]中有：

图7 邻域聚合

其中，φ为元路径；aφ为在元路径φ下的节点级注意力向量；hi′和hj′表示节点i和j的特征向量；表示拼接操作。获取节点在每个元路径下的表示之后，通过语义注意力机制来权衡不同的元路径，得到节点最终的嵌入表示Z。

其中，q是语义级注意力向量；b表示偏置参数。

在R-GCN中，为了获取异构网络中的异构信息，对于每一种关系都有设计不同的权重矩阵。在k+1 层输出的节点向量表示为：

这里Attention(·)用于估计每个源节点的重要性；Message(·)只用源节点s提取消息；Aggregate(·)按权重聚合邻居消息。

以上提到的聚合函数主要以基于注意力机制的方式为主，主要是因为注意力机制的自适应特性，能针对不同的任务自动调整对于不同邻居节点权重。LSTM聚合能获得更加丰富的邻域信息，但平均及最大化的聚合方式能节省计算时间。

2.4 模型归纳与概括

2.4.1 模型归纳

现有的异构图卷积网络可以概括为基于元路径和自适应异构信息的模型。如表1 归纳和总结了主要模型的发表时间、应用任务和数据集。从表1中看出异构网络的研究，已经成为数据挖掘领域的研究热点，并做出了大量重要的工作。

其中，基于元路径的方法逐渐从最初的专家定义元路径，转换到模型自动获取有效的元路径，如GTNs[35]利用图转换器挑选出有用的元路径。此类方法中大多数的模型，应用的任务集中在节点分类、可视化和聚类任务中。相较于此类方法，自适应异构信息的模型更关注在节点分类和链路预测任务上模型的表现。说明自适应异构信息的模型，更关注于节点之间的链路关系。自适应的方法在最近的一段时间里得到了长足的发展，在许多学术会议中都有相关工作贡献。

表1 异构图卷积网络归纳

2.4.2 模型归纳

表2对模型聚合方法、模型策略和模型特点进行分析比较。

模型聚合方法包括平均、最大化、LSTM 和注意力机制等聚合方法。其中，大多数模型都采用注意力机制的聚合方法。注意力机制能带给模型可解释性。如在基于元路径的模型中，注意力机制为不同元路径自适应赋予相应的权重，并且权重随着任务的不同而自动调整，增加模型适应能力。在基于自适应异构信息的模型中，注意力机制为不同类型的边和节点能自适应分配权重，能选择出重要的异构信息。

表2 异构图卷积网络概括

从模型策略中，基于元路径的模型多采用层次化和分层的网络结构，不仅可以获取邻居信息，也可以捕捉不同元路径的语义信息。自适应异构信息的模型更多利用的是多关系及多类型的网络结构，通过为每种节点或边类型分配不同的权重，能自适应捕获异构网络中的异构信息。

不同的模型为获得特定的信息，其特点有所差异。在基于元路径的模型中，大多数都是通过定义多种元路径来获取不同的语义信息，结合注意力机制或直接拼接多个元路径形成的嵌入获取最终的节点嵌入。在自适应异构信息的模型中，大多数的模型都是将不同的节点类型或基于不同边类型的节点，转换到同一低维语义空间下进行聚合。

许多模型存在空间或时间复杂度较高的问题，因而引入轻量化方式来解决。轻量化的方式主要可以概括为：预计算、改变聚合方式、正则化、参数共享和可训练矩阵。

（1）预计算。一些模型为了获取不同的邻域信息，需要重复计算许多的矩阵。如果在模型训练中不断计算这些矩阵，会增加计算开销。预计算方式通过预先算出需要重复使用的矩阵来避免重复计算。Meta-GNN预计算出所有元图的矩阵张量，减少计算量。

（2）改变聚合方式。虽然预先计算可以减少重复计算，但是会加大内存开销。对于邻域过大的节点，注意力机制中的softmax 计算效率低下，通过改变聚合方式提高效率。ie-HGCN 利用分层聚合结构代替邻域注意力聚合从而增加计算效率。不同类型的节点具有不同的语义信息，HetGNN使用Bi-LSTM来聚合不同类型节点的特征，它结构简洁，参数相对较少，使模型容易实现和调整。

（3）正则化。在自适应异构信息网络模型中，需要考虑不同的关系和节点类型的权重矩阵，造成参数数量过多。为了防止模型过拟合，一些模型引入正则化的方式减少模型参数。CompGCN 等引入基分解减少参数，但是基的个数难以确定。R-GCN采用块分解将关系矩阵进行稀疏约束，将其隐含的特征分解为向量表示，从而减少模型参数。

（4）参数共享。随着异构网络规模的增加，模型参数也会增加，造成模型参数取决于数据规模。参数共享是解决这个问题的较好方案。HAN将节点级注意力和语义级注意力参数进行共享，降低参数量缓解模型过拟合。为了更好地实现参数共享，HGT 在保留关系的特征的基础上，将权重矩阵进行参数化为源和目标节点及边的映射，减少模型训练参数。

（5）可训练矩阵。采用参数共享方式的模型虽然加快了计算速度，但是计算量并没有明显地减少。另外，矩阵运算消耗的计算资源相对较大，HetSANN 利用可训练矩阵代替逆矩阵，避免了逆矩阵的计算，从而加快了模型训练，但是参数化的矩阵只适用于逆矩阵的近似表示。

3 应用

图卷积网络除了完成基本数据挖掘任务，在现实场景应用下也有较好的表现。如推荐系统、生物化学、异常检测和自然语言处理等相关实际应用领域。

3.1 推荐系统

近些年，电商网络产生了大量的用户和商品的交互数据，在交互数据中蕴含着多种的多种关系，如收藏、购买和浏览等。这些信息中含有丰富的语义信息，为了给用户良好的体验，工业界和学术界将这些数据构建成异构网络，进行建模分析，更加准确地将相关商品推荐给有真实需求的相关用户。这些异构网络能准确刻画出真实的用户交互信息，对于传统的推荐系统，只将用户对商品的评分矩阵建模，采用协同过滤的方法对数据进行分析，不能完整刻画出用户画像。IntentGC[45]融合了多种异构网络中的辅助信息进行建模分析，通过图卷积网络对用户的行为和商品的信息进行建模分析，来提取其中的偏好和异构关系。除了建模提取异构性信息能力外，IntentGC 还能自动学习不同关系权重的重要性，并在实际的推荐系统中上线使用，提升了推荐效果。MEIRec[46]利用电商系统中的用户、物品及其交互数据进行建模分析，提出一种元路径指导下的异构图卷积网络，来学习意图推荐中对象的嵌入。为了缓解巨大的学习参数，MEIRec 将对象嵌入到相同的语义空间中。RecoGCN[47]使用元路径为每个节点划分具有具体语义的感知域。为了有效地融合从不同元路径中学到的嵌入内容，它利用共同注意力机制，利用参与的用户、销售代理商和商品之间的三向互动，为不同的元路径动态分配权重，获取节点的表示。以上在电商系统的推荐模型都是基于单模态属性的推荐，然而现实中的商品展示不仅有文字的说明还有图片的展示，并且在微视频平台中还有视频和语音的信息。这些信息有更加丰富的特征信息，并且现在的自然语言处理和计算视觉模型都能从这些模态中提取有效的信息，如何融合这些特征信息成为一个研究热点。MMGCN[48]提出将每种模态构建成单模态的异构图，通过图卷积网络形成单模态的向量，然后再将每种模态信息进行融合形成统一表示。通过用户和项目的表示之间的相似性进行推荐，效果均超过传统的推荐模型。

图8 蛋白质结构的图卷积

3.2 推荐系统

在生物化学领域，预测蛋白质内部氨基酸之间的联系是一个有挑战性的问题，并在药品的发现和设计中起到重要的作用。Fout等[49]提出使用图卷积网络，预测蛋白质内部氨基酸序列之间的联系。首先将蛋白质进行结构化，然后通过图卷积对其节点进行表示，最后通过其表示之间的距离度量来预测连接，如图8。

MR-GNN[50]使用基于多维度的架构，从每个节点的不同邻域中提取节点特征。并且它使用了基于双图的长短期记忆网络（LSTMs）来聚合每个图的局部特征，并提取图之间的交互特征。图变换策略网络GTPN[51]结合了图卷积网络和强化学习，将反应物和试剂分子表示为同一个图，从反应物分子生成产物分子的过程可以制定为一个图变换的序列。其具有端到端学习的特点，为了引导模型搜索有效地通过复杂的离散空间的键变化集，通过增加有用的约束条件来扩展标准策略梯度损失。许多的模型只是用原子（节点）之间的距离将分子表示为一个图，没有考虑一个原子到另一个原子的空间方向。为了缓解这一局限性，DimeNet[52]提出了方向性信息传递，基于信息之间的角度转换来使用方向信息，在一些数据集上取得了优秀的效果。

3.3 异常检测

在异常检测方面，GeniePath[53]使用一种基于图卷积网络可拓展的方法，并结合自适应路径层，在检查恶意账户上有不俗的表现，如图9。在电商系统实际中，每天用户都会对商品发表很多的评论。一般评论会影响客户的购买决定，恶意的垃圾评论会误导买家，干扰平台的正常运行。针对此Li等设计出CSA[54]，将闲鱼数据用户、商品和用户评论分别构建异构图和同构图，利用图卷积网络对数据进行分析并过滤出垃圾评论，从而提高用户的购物体验。CSA 也获得了2019 年CIKM 最佳论文奖。相较于恶意评论的检测，在支付环境下的异常检测要求更为严苛。GEM[55]总结了攻击者要受到计算成本和攻击时间的限制，主要会表现出设备聚集和行为聚集这两个特征。因此，GEM 将设备和账户之间的关系构建成异构图，利用图卷积网络进行建模分析，同时考虑了账户的局部行为特征。GEM判断账户正常与否取决于账户是否与异常用户共享设备。在消费级信贷中，用户套现会给企业的资金链造成了消极影响。检测套现用户可以降低经济损失，Hu 等人[56]提出了一种基于层次化注意力机制的用户套现检测模型——HACUD。特别地，Hu 等人根据不同类型的对象及其丰富的属性和交互关系构建出属性异构网络。HACUD 模型通过提取出网络中的结构信息，增强了节点的特征表示。此外，HACUD 中设计了分层注意机制，以基于用户对属性和元路径的偏好进行建模，能自适应感知网络中的信息。

图9 欺诈检测案例

3.4 自然语言处理

词嵌入已在多个自然语言处理应用中广泛采用[57]。现有的大多数词嵌入方法都利用单词的上下文来学习其嵌入。尽管已经尝试了利用单词的句法上下文，但是这种方法导致词汇量的爆炸式增长。序列模型能提取出长句中的依赖关系，但是它依赖于上下文的局部信息，从而限制了模型的可扩展性。现有的大多数传统词嵌入方法对文本的表示效果不佳。在自然语言处理中，抽取文档中的摘要是从长文档中抽取关键的句子作为文章的摘要。所构建的模型要能提取出蕴含在句子之间的相互关系，才能获取有效的句子表示。基于全局信息的图结构的模型相对于传统模型，能获取到全局的文档信息。Wang等人[58]提出了提取文档摘要的异构图卷积网络（HeterSumGraph），获取词和句子构建的异构图中的不同粒度的节点语义。通过这些节点充当句子之间的中介，并丰富了跨句之间关系。并且，HeterSumGraph能从提取单一文档的摘要任务拓展到多文档的摘要提取。随着网络社交媒体和电子商务的快速发展，网络短文应用于广泛的领域之中。对于短文本分类帮助用户查找相关信息，在新闻等媒体形式中得到重要的应用。由于短文本标记数据的稀疏性和局限性，现有的模型在短文本上的表现不尽人意。Hu等人[59]提出了基于异构图卷积网络的半监督短文本分类方法——HGAT，该方法克服了标记数据少和未标记数据大的特点，实现了信息在图上传播。它可以集成任何类型的附加信息，并捕获它们之间的关系来解决语义稀疏性。HGAT 基于节点级和类型级的双重注意机制可以学习不同相邻节点的重要性，以及不同信息类型对当前节点的重要性。相较于单文档的理解，问答系统需要对多跳文档进行理解，才能得到完备的答案。这是一个具有挑战性的任务。Tu 等人[60]将文档和实体建立异构文档实体图。此图蕴含不同粒度级别的信息，包括特定文档上下文中的候选项、文档和实体。其中，节点使用基于注意力的上下文编码器进行初始化，并利用图卷积网络在图上进行消息传递。最终获得节点表示包含了文档和候选项之间的空间结构信息。

4 总结及未来工作

由于异构网络能融合大量的语义信息，并且图卷积网络在同构网络分析上的优异表现，近几年吸引了大量的学者的研究。本文总结了最近几年异构图卷积网络的一些重要工作。虽然这些工作在异构网络挖掘任务中取得了一些成就，但是仍然存在着一些限制和挑战。对于未来，仍然还有很多问题要进一步探究。

（1）多模态信息处理。在现实场景中，描述同一个事物的特征，不仅可以用文本描述，也可以用图片或者视频，从多个方面表现事物的特征。因此，在真实业务场景中构建的异构网络节点信息可能包含这些多模态信息，对于这种多模态异构网络的挖掘的研究还不充分。多模态的信息含有更丰富的语义信息，不同模态相互之间存在依赖关系，但模态之间存在语义鸿沟。如何融合这些语义信息是一个研究热点。可以为每个模态构建二部图[61]，通过图卷积网络学习每个模态的表示，最后把节点上每个模态的表示拼接来获取最终的节点表示。并且，对于多模态异构网络的挖掘需要与更多领域知识相结合。不同的模态对于节点的重要程度可能不同，对于不同的模态如果按照同一种度量表征，可能会造成表示模型效果较差。如何学习不同模态对于节点嵌入表示的重要性，也是一个需要考虑的重要问题。可以通过注意力机制学习不同模态的重要程度。在流媒体盛行的时代，视频信息也可以作为节点中的一个模态信息。由于视频通常所占的存储空间较大，并且相关处理算法速度相较于图片处理速度较慢。如果直接将所有节点的视频内容输入到表示模型中，会造成模型时间和空间复杂度较高。如何将具有丰富语义的流媒体形式的信息融入到表示学习模型中，也是一个值得考虑的问题。MMGCN[62]将视频提取关键帧再利用卷积神经网络提取特征来表示视频模态信息。

（2）减少人工构建元路径。元路径对于异构网络研究与发展具有重要意义。对于现实场景下丰富且复杂的异构网络，难以提取其中有价值元路径。并且，元路径的设置需要专家领域知识，不能充分反映语义的元路径将削弱模型的表示能力，冗余的元路径会给模型带来噪声信息。基于元路径构建子图或者随机游走，也需要巨大的计算资源。特定的元路径针对特定的任务，因此人工构建元路径将会给异构网络挖掘带来限制。为了充分探索异构网络蕴含的各种语义并减少其中的信息损失，因此需要在不预定义元路径的前提下自适应学习网络中的结构和属性信息。

（3）动态性。现实中的网络是动态演变的，分析动态网络可以捕获到实时的网络变化状态，但动态网络的建模是一个难题。对于购物网络，可以反映出用户随着时间推移需求的变动。然而，在大对数的异构网络建模中都是基于静态的网络建模，很难反应动态网络的演化特征。大多数的方法将动态网络基于时间戳分成多个网络，分别进行建模分析，这样忽略了结构与时间的依赖性。因此，跨不同层的结构和时间依赖性通常被忽略。如何结合结构与时间语义关系成为一个研究热点。HGT[44]利用相对时间编码来捕获任意时间长度的动态结构依赖关系。

（4）深度计算。图卷积网络作为网络表示学习中的主要方法，大多数模型都应用于同构网络，并且对于图卷积网络，不能将其层次堆叠到很深。由于图卷积网络通过不断更新和聚合局部信息获得全局信息，深层次的图卷积网络将会产生过平滑现象，但是浅层的图神经网络不能混合高阶的语义信息。如何获得更高阶的语义信息并且适用于异构网络成为一个研究热点。可以结合ResNet[63]中的残差连接将网络层次加深，来获取高阶语义。另外，对于海量数据的场景下，模型的稳定性和泛化能力至关重要。但是，图卷积网络易受到模型结构设计的干扰造成脆弱性，如何设计出具有鲁棒性的模型是值得关注的问题。HAN利用节点级注意力网络获取节点在多个特定元路径下的表示，再使用语义级注意力网络学习每个元路径的权重，最后加权融合这些特定的表示形成节点嵌入。HAN[28]利用层次化的注意力机制网络获取节点的表示，可以获取不同层次的语义信息，从而增加模型的鲁棒性。MAGNN[31]使用多层元路径聚合网络不仅能获取多条元路径的语义信息，而且能获取元路径中间节点的信息，减少人工构建元路径造成的信息损失。自适应异构信息的方式不需要人工构建元路径，HetSANN[38]将不同类型的节点通过类型矩阵映射到相同的低维空间中，再利用注意力网络聚合邻居信息。因此，HetSANN对于不同的异构网络，都能自适应感知异构信息。为了设计出更具鲁棒性的网络结构，应进一步将自适应异构信息的网络设计为层次化的网络结构，这样不仅能获取不同层次的信息，还能自适应不同的异构网络。

（5）多主干网络。在异构网络挖掘中，现有的大多数图卷积网络都不能获得浅层和深层的组合网络特征，限制了特征表示的能力。如何获得浅层和深层的组合特征语义是一个值得研究的问题。在计算机视觉中，Res2Net[64]在残差块内部增加多个具有层次化的更小的残差块，最后将每个小残差块进行融合。这种网络结构不仅可以增加每层网络的感受野，而且能获得多层度的特征。CBNET[65]组合多个主干网络将前一层输出的特征输入到下一个主干网络对应层次中，用最后一层网络输出特征作为最终特征输出。通过这种多组主干网络组合方式，输出的特征蕴含了原始图片的浅层和深层特征。图卷积网络也可以利用这种网络结构设计，获得浅层和深层的网络特征。MGN[66]是多分支的网络结构，其中一个分支用来获取全局的特征表示，另外两个分支用于提取局部特征表示。MGN对不同区域的感知形成特征表示蕴含多粒度的信息，增强特征表示。图卷积网络可以设计为多分支网络，不仅可以获得局部邻居信息，也能获得高阶邻居信息。