码迷,mamicode.com
首页 > 编程语言 > 详细

从头开始学习自然语言处理

时间:2018-11-03 11:21:45      阅读:162      评论:0      收藏:0      [点我收藏+]

标签:rar   针对   ams   ica   其他   开始学习   arch   向量   矩阵   

Wording Embedding

  1. word2vec
    基于只含有一个隐层的神经网络,隐层的节点数就是embedding的维度。并提出了CBOW和Skip-Grams这两种语言模型。并针对词典过大而导致计算softmax分母复杂度太高的问题提出了Hierarchical Softmax和 Negative Sampling方法。
  2. glove
    并不是基于神经网络的方法,更类似于对文本中单词的共现性的矩阵进行矩阵分解,然后对每个单词求一个embedding向量。
  3. fasttext
    基于word2vec的改进方法,之前的方法没有考虑单词的形态学特征。比如there和where看起来是非常像的,但是在学习时却是独立来学习的。fasttext考虑将每个单词用 bag of character n-gram 来表示。就是对每个单词基于字符层面切分,比如where 的 3-gram为 {whe,eer,ere},(bag我自己的理解是集合的意思),单词w与其他单词的相关性可以表示成w的n-grams与其他单词的相关性的和

http://www.quest.dcs.shef.ac.uk/wmt16_files_mmt/training.tar.gz

从头开始学习自然语言处理

标签:rar   针对   ams   ica   其他   开始学习   arch   向量   矩阵   

原文地址:https://www.cnblogs.com/mata123/p/9853309.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!