Word2Vec

算法算法

Created At : 2020-04-17 18:48

Views 👀 :

对 word2vec的理解

过程

通过切词，窗口宽度，通过窗口滑动，把句子分隔为相连词组，含义是一对输入和输出的词，它们是紧密关联的
生成 2 个矩阵，它们结构是相同的：纵向是词列表，横向是向量列表，向量个数一般 N=300，也就是横向是 300 个实数
1. 一个叫embedding矩阵，用于存入输入词的向量
2. 一个叫context矩阵，用于存放输出此的向量
最初，用随机值初始化这些矩阵
然后，用这些随机值计算（向量）计算输入和输出的点积（表示为它们相关的概率）
1. 通过 sigmoid 函数把值映射到 [0,1]，表示百分比（这就是第一轮预估）
因为有输入，有真实的词相关信息，上面计算的值（百分比）和真实值对比，找到误差
然后用这个误差调整向量（如何调整？）
循环迭代上述过程，逐步优化
然后停止训练过程（停止的条件？），丢弃 Context 矩阵，Embeddings 矩阵就是被训练好的词向量

概念

技巧

负采样（negative sampling）
1. 滑动窗口生成的全部输入都是正采样，如果没有负采样，那么训练的输出结果将总是 1。
2. 负采样是自动生成的，使用词表中非正采样的词
Hierarchical softmax

其它

神经网络

Doc2Vec

应用

Doc2Vec的简介及应用(gensim)
基于gensim的Doc2Vec简析
词语分布式表示及其组合性
关于IMDB情感数据集的Gensim Doc2Vec教程
使用word embeddings进行文档分类的教程

转载请注明来源，欢迎对文章中的引用来源进行考证，欢迎指出任何有错误或不够清晰的表达。可以在下面评论区评论，也可以邮件至 jaytp@qq.com