《Embedding of Embedding (EOE) Joint Embedding for Coupled Heterogeneous Networks》---论文笔记

EOE是17年WSDM会议上的一篇工作,论文提出了一种针对异质信息网络的表示学习方法EOE,模型将异质网络拆分成两个同质网络,在两个网络中分别优化,使得网络内相连接的节点有相近的向量表示,同时,通过引入一个嵌入矩阵,使得跨网络的有边连接的节点也有相近的向量表示

在同一网络内,如果两个节点有连接,则最大化节点表示向量乘积的$sigmoid$函数,如果没有连接边,则最大化节点表示向量乘积的负值的$sigmoid$函数。在不同网络中,引入一个嵌入矩阵M,如果节点有边连接,最大化节点表示向量和嵌入矩阵的乘积的sigmoid函数。

1、Introdcution

网络嵌入的基本思想是:通过使相连的节点的表示是相近的来保留网络的结构特性,但是现有的很多工作仅仅是针对单一的网络,很少有工作分析复杂的网络数据。论文定义了一个耦合的异质网络(coupled heterogeneous network),该网络由两个不同的但是相关的子网络组成,这些子网络通过网络间的链路连接。文中给出了一个学术合作网络的一个简单例子,可以见下图。

对于单一的作者网络或者词网络,现有的很多方法可以学习到网络的节点表示,但是这些方法几乎都不能直接应用于由作者网络和词网络共同构成的耦合异质网络。其中最主要的挑战在于:两个不同网络的异质性,这可能会导致两个异质隐含空间。针对这一问题,论文提出了EOE模型,通过利用一个嵌入矩阵(embedding matrix),进一步将一个隐含空间的表示嵌入到另一个嵌入空间。EOE模型和现有方法的关键不同在于在两个子网络中有三种边和两种类型的隐含空间

论文的主要贡献是:

  • 第一次提出了耦合网络的联合嵌入问题,并提出了一个利用嵌入矩阵进一步嵌入只编码了网络内部边的向量表示的EOE模型
  • 提出了一种交替优化算法来解决EOE的学习目标,在这种学习目标中,学习目标是针对一种类型的变量一次优化直到收敛。
  • 实验充分。

2、The EOE Model

论文用符号$G_{uv}(G_u,E_{uv},W_{u,v},G_v)$表示耦合异质网络,其中$G_u(U,E_u,W_u)$、$G_v(V,E_v,W_v)$分别表示两个子网络,$U$和$V$表示节点集合,$E_u, E_v$表示子网络内部边集合,$E_{uv}$表示跨越两个子网络之间的连接边集合。$W_u,W_v$分别表示子网络中边的权重,$W_{uv}$表示跨网络边的权重。

论文定义:如果两个节点之间存在边连接的概率非常大,那么它们在隐含向量空间的表示应该也是很相近的,而节点间有边连接的概率定义为:

其中$u_i,u_j$表示两个同类型节点的向量表示(在同一子网络内)。

针对跨网络的节点,论文定义节点间有边连接的概率为:

其中,M定义为一个大小为$d_u\times{d_v}$的harmonious embnedding matrix(和谐的嵌入矩阵?),$d_u,d_v$分别是隐含特征U,V的大小。

EOE模型不仅保证有边连接的节点对在隐含向量空间中的表示是相近的,而且还保证没有边连接的节点对在隐含向量空间中的表示是相距甚远的。基于此,模型的损失函数可以由两部分组成,对于有边连接的节点对的损失定义为(以一个子网络U为例):

对于没有边连接的节点对的损失函数定义为:

两部分损失函数,保证了对于大概率连接(有边)的情况,损失值是很小的,对于小概率的连接(无边)的情况,损失值很大

因此,EOE模型的整体损失函数定义为:

针对上述的损失函数,论文给出了一种优化方案:基于梯度,一次只优化一种类型的参数,直到当前变量收敛,在优化下一个参数。算法伪代码如下图。

3、Summary

总体来说,EOE模型想法还是挺有新意的,能够把异质网络考虑我哦两个同质的子网络,然后分而治之,针对同一网络内的相连接节点对有相近的向量表示,同时,通过引入一个嵌入矩阵,使得跨网络的有边连接的节点也有相近的向量表示

个人感觉,论文最大的亮点在于:通过定义两个节点间有边连接的概率,不仅保证有边连接的节点对在隐含向量空间中的表示是相近的,而且还保证没有边连接的节点对在隐含向量空间中的表示是相距甚远的,这一点恰当的体现在损失函数的定义中。

写的还不错?那就来个红包吧!
0%