《Caffe下跑AlxNet之数据处理过程》

时间：2016-12-19 13:54:42 阅读：247 评论：0 收藏：0 [点我收藏+]

标签：size think val 需要好的还需要 creat 也有命名

环境：Windows

最近用Caffe跑了一下AlxNet网络，现在总结一下数据处理部分：（处理过的数据打包链接：http://pan.baidu.com/s/1sl8M5ad 密码：ph1y）

（1）获得数据集，途径有：

1.Benchmark(数据库) AFLW FDDB

2.最新论文（2016）

3.Thinkface论坛

数据量：庞大的数据量支撑，最少1w张（正，负样本各一万张），格式如下：

xxxx.jpg x1,y1,x2,y2(标注label),即人脸所在矩形框的坐标

xxxx.jpg x1,y1,w,h

我是从Thinkface论坛上直接下载的经过裁剪的人脸数据；

（2）利用下载下来的数据集制作正负样本以及.txt文件：

以下是我的方法，可能有点笨拙：

1.先建立imageset_2文件夹作为总的工程文件夹，然后在其中新建两个文件夹，一个命名为0，一个命名为1，分别放入裁剪好的人脸数据和非人脸数据，再对图片进行重命名（人脸图片命名为face_xxxx，非人脸图片命名为non_face_xxxx）；

2.再新建mix、val、train文件夹（train文件夹中再新建两个文件夹，一个命名为0，一个命名为1），编写一个python小程序，将0和1中的图片经过混合后放入mix文件夹，在mix文件中取10%放入val文件夹作为测试数据，再取剩下的90%将其中的人脸图片放入train文件夹中的0文件夹，非人脸图片放入1文件夹（正样本5800张，负样本20000张左右）；

3.先制作train.txt，在train中的0文件夹中写一个.bat文件，内容如下：

dir /b/s/p/w *.jpg > train_0.txt

上述命令在新建的train_0.txt文件写入0中的每张图片的绝对路径，然后再使用txt的替换功能去掉绝对路径，再在后面加上Label值，形式如下：

技术分享