Word2vec 论文由 Google 的研究团队发布于 2013 年,它的发布,很大程度上改变了 NLP 技术的发展,不仅如此,在使用神经网络来解决各个领域的问题时,谈必离不开 Embedding,而 Embedding 究竟是什么?
对于 Skip-gram 模型已知的是当前词 需要对其上下文 Context 中的词进行预 测,所以关键是条件概率函数 的构造, Skip-gram 模型中将其定义 为:上式中的 可以类比上节介绍的 Hierarchical Softmax 的思想, 因此可得:通过对数极大似然化处理可得 Skip-gram 模型的目标函数为:首先考虑 关于 的梯度计算:于是, 的更新公式为:然咸再考虑 对关于 的梯度计算 亦可根据对称性直接得出。
它不仅让词向量在自然语言处理领域再度流行,更关键的是,自从 2013 年谷歌提出 Word2vec 一来,Embedding 技术从自然语言处理领域推广到广告、搜索、图像、推荐等几乎所有深度学习的领域,成了深度学习知识框架中不可或缺的技术点。
Word2Vec是google在2013年推出的一个NLP工具,它的特点是能够将单词转化为向量来表示,这样词与词之间就可以定量的去度量他们之间的关系,挖掘词之间的联系。for w in words:if w in word2ind:ind = word2ind。
参考文献LatentDirichlet AllocationLightLDA- Big Topic Models on Modest Computer ClustersEfficient Estimation of Word Representations in Vector S
BERT集成了最近一段时间内NLP领域中的一些顶尖的思想,包括但不限于 Semi-supervised Sequence Learning , ELMo , ULMFiT , and the OpenAI transformer , and the Transformer .。