码迷,mamicode.com
首页 > 其他好文 > 详细

Feature hashing相关 - 1

时间:2014-12-04 17:47:41      阅读:327      评论:0      收藏:0      [点我收藏+]

标签:style   blog   http   color   使用   sp   on   数据   2014   

考虑典型的文本分类,一个经典的方法就是

? ?

  1. 分词,扫描所有特征,建立特征词典
  2. 重新扫描所有特征,利用特征词典将特征映射到特征空间编号 得到特征向量
  3. 学习参数 w
  4. 存储学习参数 w , 存储特征映射词典
  5. 预测截断装载学习参数w,装载特征映射词典
  6. 扫描数据,将所有特征利用特征映射词典映射到特征空间编号 得到特征向量
  7. 利用用学习参数w 对得到的特征向量 进行 点积 做出预测

? ?

? ?

Feature hashing怎么做?

不使用特征词典了,不用考虑额外的存储词典的空间,直接对特征进行hash编号。

有冲突? 后面会说明对效果影响不大!

? ?

? ?

bubuko.com,布布扣

? ?

bubuko.com,布布扣

同样的内存占用下 我们可以存储更多的weights!

? ?

Feature hashing相关 - 1

标签:style   blog   http   color   使用   sp   on   数据   2014   

原文地址:http://www.cnblogs.com/rocketfan/p/4143108.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!