Word2vec - 最经典的词嵌入学习算法

发表于 2018-09-13 更新于 2018-09-14 分类于自然语言处理笔记阅读次数：

如果想要开始研究基于深度学习的自然语言处理，你很难逃开 Word2vec 这一最为经典的词嵌入学习算法。然而，想要透彻理解 Word2vec 又并非易事。因此，我写这篇博文，力图叙述清楚 Word2vec 的原理，以对学到的知识做一个梳理。

为什么要使用 Word2vec？

One-Hot Representation

自然语言处理（NLP）相关任务中，要将自然语言交给机器学习中的算法来处理，通常需要首先将语言数学化，因为机器没法理解自然语言。作为语言最细粒度的单位，词语被转换为数值形式的产物通常为词向量，顾名思义就是把一个词表示成一个向量。

最简单的词向量方式是 One-Hot Representation。简单来说，就是每个词向量的长度为词典大小，向量的分量只有一个 1，其他全为 0， 1 的位置对应该词在词典中的位置。这样的做法非常简单，也容易实现，只需要用哈希表给词典中的每个词语分配一个编号即可。NLP 领域的很多主流任务完全可以通过这种简洁的表示方法，配合其他的算法来完成。

但是，One-Hot Representation 有两个不可忽视的缺点：

One-Hot Representation 的词向量是高维稀疏的。当数据的维度越高，要找到最优解甚至达到稍低维度时模型的同等表现，所需要的数据越多，而且呈指数型增长。此问题被称为“维度灾难”。
One-Hot Representation 无法体现词语间的相似度。因为每个单词都背表示为表示为完全独立的个体，不同词向量都是正交的。因此，词向量缺少语法和语义的信息。

Distributed Representation

因此，One-Hot Representation 已经逐渐不能满足需求，人们寻求在词向量表示上的新方法。之后，Hinton 在 1986 年提出了 Distributed Representation，基本思想是将每个词表达成 n 维稠密、连续的实数向量，每个分量通过训练得到。例如：[0.792, −0.177, −0.107, 0.109, −0.542, ...]。

这样，两个问题都迎刃而解：由于词向量维度较低，“维度灾难”难以出现；而两个词语义、语法上的相似性也可以通过计算两个词之间的“距离”来表示，因为所有词向量一起可以组成一个词向量空间，只要计算欧式距离或者 cos 距离即可。

语言模型

接下来，我们介绍语言模型。在统计自然语言处理中，语言模型（Language Model）指的是计算一个句子是否是自然语言的概率模型，通常用于在机器翻译、语音识别等任务得到若干候选答案后挑选一个比较正常的结果。例如，我们有 Bigram 模型，通过前一个词语已确定、后一个词语出现的概率来计算整句话遵循自然语言规则的概率：

$$P(w_1, w_2, …, w_n) = \prod^n_{i=2}P(w_i | w_{i-1})$$

大部分的有监督机器学习模型，都可以归结为f(x)->y。将语言模型看作f，x为一个句子里的一个词语，那么y就是这个词语的上下文词语。根据语言学中一个非常重要的假设——分布相似性，类似的词有相似的语境，即其上下文词语y应该相似。两个语义相似的词对应的向量也是相似的，具体反映在夹角或距离上。

Word2vec 就是源于以上思想。通过词语及其上下文，我们可以训练出一个模型f。在 Word2vec 中，我们关心神经网络训练完后得到的权重（即模型参数），这些向量化表示的权重就是我们需要的词向量，或者也被称为词嵌入（Word Embeddings）。当然，得到词嵌入的不止 Word2vec 一种算法，但 Word2vec 是提出时间较早并且比较经典的一种，因此值得花时间去透彻理解。

Word2vec 的两种语言模型

Word2vec 是一种基于迭代的词嵌入学习算法，其包含两种语言模型：

Skip-gram：根据词预测目标上下文
**Continuous Bag of Words (CBOW)**：根据上下文预测目标词

Skip-gram

在 Skip-gram 中，我们用当前词x来预测上下文y。一般的数学模型只接受数值型输入，因此x的原始输入形式就使用前文提到的 One-Hot Representation，每个词语都有自己的唯一表示。y使用的就是词典中每个词是正确上下文的概率。

当y只取x的下一个词时，网络结构如下图：

设词典中词语数量为V，隐藏层节点数为N。当模型训练完后，当我们输入一个 One-Hot Representation 的向量作为x时，则在输入层到隐藏层的权重里，只有对应 1 这个位置的权重被激活，这些权重的个数为N，跟隐藏层节点数是一致的。由于每个词语的 One-Hot Representation 里 1 的位置是不同的，因此，对应 1 这个位置的权重组成的向量就可以作为该词的唯一表示。

同理，通过训练完后的隐藏层到输出层的权重同样可以得到另一种词向量。两种词向量分别称为“输入向量”和“输出向量”，一般我们使用“输入向量”。

由于N通常要远远小于V，因此我们通过 Word2vec 完成了对词向量的降维，以避免“维度灾难”的出现。

另外，隐藏层的激活函数其实是线性的，相当于没做任何处理。这是 Word2vec 相对于之前的语言模型的简化之处。在用反向传播算法训练神经网络时，本质上是链式求导。

更一般的情形下，上下文y应该有多个词，因此网络结构扩展如下图：

CBOW

在 CBOW 中，我们用上下文预测当前词。其他与 Skip-gram 相似，因此有网络结构如下图：

具体步骤如下：

生成所有的 One-Hot Representation；
根据上下文得到相对应的词向量；
将所有的上下文词向量求和后做一个平均，作为隐藏层的向量；
在隐藏层向量和输出向量相乘后，通过 Softmax 计算预测概率；
通过反向传播更新参数。

损失函数为：

$$H(\hat y, y) = -\sum^V_{j=1}y_jlog(\hat y_j)$$

训练技巧

Word2vec 本质上是一个语言模型，它的输出节点数是 V 个，对应了 V 个词语，本质上是一个多分类问题，但实际当中，词语的个数非常非常多，会给计算造成很大困难，所以需要用技巧来加速训练。对于 Word2vec，提出了两种训练技巧：

负采样（Negative Sampling）：采样负例。本质是预测总体类别的一个子集。
分级的 Softmax（Hierarchical Softmax）：用一种有效的树结构来计算所有词汇的概率。本质是把 N 分类问题变成 log(N) 次二分类。

因其不是 Word2vec 的精髓，在这篇文章中，暂时不对这两种训练技巧做过多的介绍了。有兴趣的同学可以在参考资料中选择阅读，或者等待下一篇文章。

如何使用 Word2Vec？

gensim 是一款开源的第三方 Python 工具包，包含 Word2vec 在内的多种主题模型算法。这里有一个简单的 demo来演示如何使用 gensim 中的 Word2vec。你也可以查阅 gensim 的官方文档来学习更多的用法。

结语

Word2vec 作为最经典的词嵌入学习算法，让词嵌入开始广泛被使用。然而，Word2vec 学习的向量其实和真正的语义还有差距，因为其学到的更多是具备相似上下文的词语，例如表示“good”和“bad”的词嵌入相似度就非常高。因此，后续又有一些新的词嵌入学习算法被提出并大量使用，其中最火的就是 Glove。

到目前为止，这篇博文介绍了为什么要使用 Word2vec 的产物，以及 Word2vec 的算法本质。我的目标是能够覆盖参考资料中的《N问word2vec》中的所有问题，因此后续学习还会更新此文来添加公式推导、训练技巧介绍等内容，或者写下一篇文章。

参考资料

写作参考

[NLP] 秒懂词向量Word2vec的本质：本文主干参照了知乎上的这篇文章，写得非常好，推荐
课程 cs224n 的 notes1
深度学习word2vec笔记之基础篇 - CSDN博客
（No.39）N问word2vec：可以通过试图回答这篇文章里的问题来检验自己对 Word2vec 到底了解多深

补充阅读

Mikolov 关于 Word2vec 的两篇开山之作：
- Distributed Representations of Sentences and Documents：在前人基础上提出 Word2vec
- Efficient estimation of word representations in vector space：专门讲两个训练技巧
Word2vec原理推导与代码分析-码农场
word2vec Parameter Learning Explained：他人重点推荐
Word2vec 相比之前的 Word Embedding 方法好在什么地方？ - 知乎