《PTE:Predictive Text Embedding through Large-scale》 ---论文笔记

PTE模型是LINE的扩展,也是唐建老师发表在KDD‘15上的一篇论文,相较于LINE,PTE模型是一种半监督模型,针对大规模异质文本网络,根据有标签数据和无标签数据学习文本数据的网络表示。

模型首先将有标签数据和不同级别的共生单词表示为一个大规模的异质文本网络,然后将该网络降维到一个低维度的向量空间,得到文本的特征表示。

论文简介部分介绍了文本数据的表示学习的重要性,指出深度神经网络虽然在学习文本表示特征时候的效果更好一些,但是它也让存在一些问题,比如:计算量大,需要大量有标签的数据以及繁杂的调参过程。相对于深度神经网络,文本嵌入方法(例如Skip_gram)往往更加高效,更易实现。

论文提出的PTE采纳了无监督文本嵌入的优点,同时也利用有标签信息进行表示学习。模型从有限的有标签数据和大量无标签数据中学习得到一个低维度的向量表示,然后利用表示特征进行特定的任务。

网络对词与词、词与文本以及词与标签之间不同级别的共生信息进行编码,然后将该网络嵌入到低维度向量空间,文本的特征表示可以简单的看作是词的特征表示的均值。

PTE是LINE工作的一个扩展,LINE模型是用于多种类型的信息网络,包括有向图、无向图、是否带权图等,它的目标函数既保留了网络结构的局部特征也保留了全局特征。PTE将LINE扩展到处理异质网络,网络中有多种类型的节点和边。

2、Predictive Text Embedding (PTE)

2.1、Probelm Definition
Word-Word Network

$G_{ww}=(V,E_{ww})$表示词与词的共生网络,$V$表示单词的词汇表,$E_{ww}$表示单词之间的边的集合,单词$v_i$和单词$v_j$间边的权重$w_{ij}$定义为:两个单词共同出现在给定窗口大小的上下文窗口中的次数。

Word-Document Network

$G_{wd}=(V\cup{D},E_{wd})$表示词与文档的二分网络,$V$表示词语的集合,$D$表示文档的集合,$E_{wd}$表示单词和文档之间的边的集合,单词$v_i$和文档$d_j$间边的权重$w_{ij}$定义为:单词$v_i$共同出现在文档$d_j$中的次数。

Word-Label Network

$ G_{wl}=(V\cup{L},E_{wl})$表示词与文档类别标签的二分网络,$V$表示词语的集合,$L$表示文档类别标签的集合,$E_{wl}$表示单词和标签之间的边的集合,单词$v_i$和类别标签$c_j$间边的权重$w_{ij}$定义为:$w_{ij}=\sum_{(d:l_d=j)}{n_{di}}$,其中$n_di$表示单词$v_i$在文档$d$中的词频,$l_d$表示文档d的类别标签。

PTE

论文基于LINE(2nd)模型,对每个子网络分别进行建模,模型假设有相同邻居的节点是相似的,有相似的特征表示。模型的目标函数定义为:

目标函数使用边采样和负采样技术,基于随机梯度下降方法进行优化。

异质文本网络嵌入通过简单的讲三个二分网络的目标函数想加,得到目标函数,

其中,

针对目标函数(2)的优化,论文提出了两种方案,一种是采用joint training的方式训练,即同时训练有标签数据和无标签数据 ,另一种是先训练无标签数据,再训练有标签数据。

通过优化上面的模型,可以学习的到词的向量表示,而文本的特征表示就可以直接取词向量的均值。

3、Experiment

4、Conclusion

PTE作为LINE工作的一个扩展,同时利用有标签数据和无标签数据,以半监督的方式学习文本的嵌入表示。它通过将异质文本网络嵌入到一个低维度的向量空间中,学习到文本的表示分布。

5、Summary

个人认为,论文最大的亮点在于同时利用有标签数据和无标签数据进行表示学习,既保留了无监督文本嵌入的优点,同时也学习有标签数据中的特征。论文把文本数据转换到三个子网络中,构成大的异质文本网络,然后将其嵌入到一个低纬度的向量空间,学习文本的表示特征。

Reference

[1] Tang J, Qu M, Wang M, et al. Line: Large-scale information network embedding[C]//Proceedings of the 24th International Conference on World Wide Web. International World Wide Web Conferences Steering Committee, 2015: 1067-1077.

写的还不错?那就来个红包吧!
0%