码迷,mamicode.com
首页 > 其他好文 > 详细

Fasttext

时间:2018-12-14 15:00:32      阅读:507      评论:0      收藏:0      [点我收藏+]

标签:order   tricks   arch   aging   com   bsp   ima   向量   补充   

 

1、fasttext是facebook开源的一个词向量与文本分类工具,在学术上没有太多创新点,好处是模型简单,训练速度非常快。简单尝试可以发现,做出来的结果也不错,可以达到上线使用的标准。

 

2、简单说来,fastText做的事情,就是把文档中所有词通过lookup table变成向量(word2vec),取平均后直接用线性分类器得到分类结果。fastText和deep averaging network(DAN,如下图)比较相似,是一个简化的版本,去掉了中间的隐层。论文指出了对一些简单的分类任务,没有必要使用太复杂的网络结构就可以取得差不多的结果。

 

DAN的结构:

 

 技术分享图片

 

 

fastText的结构:

 

 技术分享图片

 

 

fastText论文中提到了两个tricks

1)hierarchical softmax

类别数较多时,通过构建一个霍夫曼编码树来加速softmax layer的计算,和之前word2vec中的trick相同

 

2)N-gram features

只用unigram的话会丢掉word order信息,所以通过加入N-gram features进行补充用hashing来减少N-gram的存储

 

Fasttext

标签:order   tricks   arch   aging   com   bsp   ima   向量   补充   

原文地址:https://www.cnblogs.com/yongfuxue/p/10119016.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!