码迷,mamicode.com
首页 > 其他好文 > 详细

123

时间:2016-07-05 20:53:17      阅读:217      评论:0      收藏:0      [点我收藏+]

标签:

常用的语言模型都是在近似地求 P(wt|w1,w2,,wt1)P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wtn+1,,wt1)P(wt|wt−n+1,…,wt−1) 近似表示前者。

一种用神经网络构建二元语言模型(即 P(wt|wt1)P(wt|wt−1))的方法

 4.1 词向量 

1.one-hot-represatation

对一个词表顺序编号1苹果2水果3芒果4葡萄5香蕉

出现芒果则第三个位置对应1其他位置为0

00100

1.维数灾难,2.无法计算相似度

2. Distributed Representation 

word2vec就是采用这种方法

将词映射成k维空间的向量

可以通过余弦,欧氏距离计算相似度

4.2 统计语言模型

 就是字符串的概率

(1)上下文无关模型(Context=NULL

??(??t|Context)= ??(????)=??(??t)/ ?? 

相当于n=1

(2)n-gram 模型(Context= ????−n+1, ????−n+2,…,????−1) 

n=2叫bigram

n-gram 模型的优点包含了前 N-1 个词所能提供的全部信息,只看 N-1 个词

123

标签:

原文地址:http://www.cnblogs.com/ldphoebe/p/5644758.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!