Glove 细节介绍

Glove全称Global Vectors for Word Representation，是目前应用范围最广的词向量，但是它基于通用语料训练，所以适合通用语言的自然处理任务，如果你的词库是领域特定词库，使用word2vec或者fasttext自己训练会比较好。

Glove模型可以简单概括为：基于通用语料，获得词频统计，学习词语表征)

从语料中通过统计方式提取一个共现矩阵 $X$ ， $X_{ij}$ 表示的是单词i和单词j出现在同一个窗口中的频率(单词i和j出现在同一个上下文中的频率)。

模型公式

$J=sum_{i,j}^{N}f(X_{i,j})(v_i^Tv_j+b_i+b_j-log(X_{i,j})$
$v_i$ 和 $v_j$ 即为单词i和j的词向量， $b_i$ 和 $b_j$ 是两个标量(偏差项，不能省略，会破坏对成型，在推导过程中你会明白为什么不能省略)。 $f (x)$ 是一个权重函数， $N$ 表示词汇表大小(共现矩阵维度为 $N * N$ )。Glove没有使用神经网络，从这一点来讲，是无监督的学习方式，但是在公式推导过程中，你会发现它也能被看作是监督学习的方式。

推导过程如下

定义 $X_i$ 为如下，你可以理解为出现单词i的频率之和。
$X_i=sum_{j=1}^{N}X_{i,j}$
即矩阵单词i那一行的和。

条件概率 $P_{i,k}$ ：
$P_{i,k} = frac{X_{i,k}}{X_i}$
表示单词k出现在单词i语境中的条件概率。

两个条件概率的比率:
$ratio_{i,j,k}=frac{P_{i, k}}{P_{j,k}}$
作者认为这个比率蕴含语义信息：

$ratio_{i,j,k}$	单词j,k相关	单词j,k不相关
单词i,k相关	$\to 1$	$\to \infty$
单词i,k不相关	$\to 0$	$\to 1$

如果训练得到的词向量能通过某种函数记为 $g(v_i,v_j,v_k)$ 计算出的 $ratio_{i,j,k}$ 能有同样的规律，那么可以认为词向量已经编码了共现矩阵所蕴含的语义信息。

也就是说我们希望
$ratio_{i,j,k}=frac{P_{i, k}}{P_{j,k}}=g(v_i,v_j,v_k)$ 尽可能接近。

使用MSE作为代价函数
$J=sum_{i,j,k}{N}(frac{P_{i,k}}{P_{j,k}}-g(v_i,v_j,v_k))^2$

$g(v_i,v_j,v_k)$ 有如下三方面的考虑：

考虑 $v_i$ 和 $v_j$ 之间的关系，应该有 $v_i-v_j$
$ratio_{i,j,k}$ 是标量，为了得到标量，可以使用内积 $v_i-v_j)^Tv_k$
不能为负值，使用exp函数，得 $g(v_i,v_j,v_k)=exp((v_i-v_j)^T)v_k$

综上：
$frac{P_{i, k}}{P_{j,k}}=exp((v_i-v_j)^T)v_k)=exp(v_i^Tv_k-v_j^Tv_k)$
即
$frac{P_{i,k}}{P_{j,k}}=frac{exp(v_i)^T}{exp(v_j)^T}$

实现这个优化目标，只需要拟合分子分母即可，而分子分母同型，我们可以简化为这一目标
$P_{i,j}=exp(v_i^Tv_j)$

两边取对数

$log(P_{i,j})=v_i^Tv_j$

代价函数简化为：
$J=sum_{i,j}^{N}(v_i^Tv_j-log(P_{i,j}))^2$

这里存在一个问题， $log(P_{i,j})=v_i^Tv_j$ ， $log(P_{j,i})=v_j^Tv_i$ ， $log(P_{i,j})$ 等于 $log(P_{j,i})$ 但是 $v_i^Tv_j$ 不等于 $v_j^Tv_i$ 。这就是为什么要加上偏差项。

$J=sum_{i,j}^{N}(v_i^Tv_j+b_i+b_j-log(P_{i,j}))^2$

最后，每一个单词组合的权重应该不一样，所以引入权重函数
$J=sum_{i,j}^{N}f(X_{i,j})(v_i^Tv_j+b_i+b_j-log(X_{i,j}))^2$

权重函数:
$frac{x}{x_{max}}^{0.75}, & if x < x_{max} \ 1, & if x >= x_{max} end{cases}$
即频率越高权重越大，但是也不能过分增大。

参考 (如果你觉得这里不详细的话，可以看下面这篇)

理解GloVe模型（+总结）

Glove 细节介绍

模型公式

推导过程如下

参考 (如果你觉得这里不详细的话，可以看下面这篇)

相关推荐