nlp 第五节课 语言技术-词表达 word2Vec

https://www.bilibili.com/video/BV1kE411G7qo?p=5

1. Word Representation:

   one-hot vector :

  1)稀疏

  2) 每一个词向量之间都是垂直,没法算相似度nlp 第五节课 语言技术-词表达 word2Vec

 nlp 第五节课 语言技术-词表达 word2Vec

2. Semantic Similarity 

  语义 similarity, 用上下文来表示一个词

nlp 第五节课 语言技术-词表达 word2Vec

  1) Count-Based Methods

  滑动窗口

  语料库 corpusnlp 第五节课 语言技术-词表达 word2Vec

  nlp 第五节课 语言技术-词表达 word2Vec

   nlp 第五节课 语言技术-词表达 word2Vec

   

nlp 第五节课 语言技术-词表达 word2Vec

   2) TF - IDF

  TF = 词 i 在文本 j 中出现次数 / 文本 j 中总词数

  IDF =  log (所有文档数量/包含词 i 的文档数量)

  nlp 第五节课 语言技术-词表达 word2Vec

  3)embedding 

  nlp 第五节课 语言技术-词表达 word2Vec

   nlp 第五节课 语言技术-词表达 word2Vec

3. Neuron Network

  1) LR 一个神经元

  nlp 第五节课 语言技术-词表达 word2Vec

   

  nlp 第五节课 语言技术-词表达 word2Vec

  nlp 第五节课 语言技术-词表达 word2Vec

  nlp 第五节课 语言技术-词表达 word2Vec

   压缩,加密解密nlp 第五节课 语言技术-词表达 word2Vec

   

  2)Back Propagation

  nlp 第五节课 语言技术-词表达 word2Vec

nlp 第五节课 语言技术-词表达 word2Vec

 nlp 第五节课 语言技术-词表达 word2Vec

 nlp 第五节课 语言技术-词表达 word2Vec

 nlp 第五节课 语言技术-词表达 word2Vec

   

4. Word2Vec

  CBOW continuous bag of words:  输入很多词向量,求平均V

  skip-gram: 输入center word,变成词向量,

  nlp 第五节课 语言技术-词表达 word2Vec