码迷,mamicode.com
首页 > 其他好文 > 详细

利用shuf对数据记录进行随机采样

时间:2014-08-01 13:31:11      阅读:327      评论:0      收藏:0      [点我收藏+]

标签:style   blog   color   文件   数据   div   时间   log   

最近在用SVM为分类器做实验,但是发现数据量太大(2000k条记录)但是训练时间过长...让我足足等了1天的啊!有人指导说可以先进行一下随机采样,再训练,这样对训练结果不会有太大影响(这个待考证)。所以就对数据进行了一下降采样,具体方法如下:

shuf data | head -n 100000

其中,我的数据是在txt文件中存储的,基本格式是:

record 1 xxxxx
record 2 xxxxx
record 3 xxxxx
record 4 xxxxx
 ...........
record n xxxxx

 

利用shuf对数据记录进行随机采样,布布扣,bubuko.com

利用shuf对数据记录进行随机采样

标签:style   blog   color   文件   数据   div   时间   log   

原文地址:http://www.cnblogs.com/beanocean/p/3884684.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!