深入理解深度学习——Word Embedding（六）：负采样（Negative Sampling）优化

von Neumann

发布时间 2023.05.12阅读数 1995 评论数 0

分类目录：《深入理解深度学习》总目录
相关文章：
· Word Embedding（一）：word2vec
· Word Embedding（二）：连续词袋模型（CBOW, The Continuous Bag-of-Words Model）
· Word Embedding（三）：Skip-Gram模型
· Word Embedding（四）：Skip-Gram模型的数学原理
· Word Embedding（五）：基于哈夫曼树（Huffman Tree）的Hierarchical Softmax优化
· Word Embedding（六）：负采样（Negative Sampling）优化

训练一个神经网络意味着要输入训练样本并不断调整神经元的权重，从而不断提高对目标预测的准确性。神经网络每训练一个样本，该样本的权重就会调整一次。正如《Word Embedding（五）：基于哈夫曼树（Huffman Tree）的Hierarchical Softmax优化》所讨论的，的大小决定了神经网络的权重矩阵的具体规模，所有这些权重需要通过数以亿计的训练样本来进行调整，这是非常消耗计算资源的，并且在实际训练过程中，速度会非常慢。

负采样（Negative Sampling）解决了这个问题，它可以提高训练速度并改善所得到词向量的质量。不同于原本需要更新每个训练样本的所有权重的方法，负采样只需要每次更新一个训练样本的一小部分权重，从而在很大程度上降低了梯度下降过程中的计算量。在Hierarchical Softmax优化方法中，负例是二叉树的其他路径，而对于负采样（Negative Sampling）优化，负例是随机挑选出来的。

对于每个训练样本，中心词是，它周围上下文共有个词，记为。由于这个中心词的确和相关存在，因此它是一个真实的正例。通过负采样（Negative Sampling），我们得到个和不同的中心词，这样和就组成了个并不真实存在的负例。利用这一个正例和个负例，我们进行二元Logistic回归，得到负采样对应每个词对应的模型参数和每个词的词向量。

从《Word Embedding（五）：基于哈夫曼树（Huffman Tree）的Hierarchical Softmax优化》可以看出，负采样（Negative Sampling）优化由于没有采用霍夫曼树，每次只是通过采样 $\text{NEG}$ 个不同的中心词做负例，就可以训练模型，因此整个过程要比Hierarchical Softmax简单。

负采样（Negative Sampling）方法

设词汇表的大小为，那么可以将一段长度为1的线段分成 $V$ 份，每份对应词汇表中的一个词。当然每个词对应的线段长度是不一样的，高频词对应的线段长，低频词对应的线段短。每个词的线段长度由下式决定：

在采样前，我们将这段长度为1的线段划分成等份，这里，这样可以保证每个词对应的线段都会划分成对应的小块。而份中的每一份都会落在某一个词对应的线段上。在采样的时候，我们只需要从个位置中采样出个位置就行，此时采样到的每一个位置对应到的线段所属的词就是我们的负例词。
负采样方法

建模仿真机器学习深度学习负采样

打赏 0

上一篇：深入理解深度学习——用Embedding处理分类特征

下一篇：深入理解深度学习——Word Embedding（三）：Skip-Gram模型

深入理解深度学习——Word Embedding（六）：负采样（Negative Sampling）优化

von Neumann

负采样（Negative Sampling）方法

为你推荐

DDQN---原理讲解+代码实践

（十九）通俗易懂理解——无人驾驶概述

深度学习图像分类（三）： VggNet

SSD(Single Shot MultiBox Detector)不得不说的那些事

精选TimesNet：用于一般时间序列分析的时间二维变化模型（代码解析）

基于Motion Vector的实时动作识别

关于作者

von Neumann

48

0

0

2

精选自然语言处理从入门到应用——预训练模型总览：两大任务类型

精选自然语言处理从入门到应用——静态词向量：神经网络语言模型（Neural Network Language Model）

自然语言处理从入门到应用——预训练模型总览：迁移学习与微调

相关推荐

强化学习（十）Double DQN (DDQN)

重参数 (Reparameterization)

「RL篇肆」Vanilla Policy Gradient 原理与实战

数值优化（Numerical Optimization）(1)

Prompt-Tuning源码分析

你必须要知道CNN模型：ResNet

热门泡泡

30积分失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

深入理解深度学习——Word Embedding（六）：负采样（Negative Sampling）优化

von Neumann

负采样（Negative Sampling）方法

为你推荐

DDQN---原理讲解+代码实践

（十九）通俗易懂理解——无人驾驶概述

深度学习图像分类（三）： VggNet

SSD(Single Shot MultiBox Detector)不得不说的那些事

精选TimesNet：用于一般时间序列分析的时间二维变化模型（代码解析）

基于Motion Vector的实时动作识别

评论（0）

关于作者

von Neumann

48

0

0

2

精选自然语言处理从入门到应用——预训练模型总览：两大任务类型

精选自然语言处理从入门到应用——静态词向量：神经网络语言模型（Neural Network Language Model）

自然语言处理从入门到应用——预训练模型总览：迁移学习与微调

相关推荐

强化学习（十）Double DQN (DDQN)

重参数 (Reparameterization)

「RL篇 肆」Vanilla Policy Gradient 原理与实战

数值优化（Numerical Optimization）(1)

Prompt-Tuning源码分析

你必须要知道CNN模型：ResNet

热门泡泡

30积分 失眠，聊聊自己搞ROS的心得体会吧

ros学习路线

30积分 TF_REPEATED_DATA ignoring data错误

各位大佬，有什么ROS定位算法推荐吗

5积分 想买能用ROS2的开发套件。或者开发板

5积分 ros中启动gazebo时报错

给作者打赏

忘记密码

修改头像

添加你感兴趣的标签

举报类型（必选）

举报详情（选填）

「RL篇肆」Vanilla Policy Gradient 原理与实战

30积分失眠，聊聊自己搞ROS的心得体会吧

5积分想买能用ROS2的开发套件。或者开发板