不论使用何种框架进行CNNs训练,共有3种数据集:
Training Set用于训练网络。
Validation Set用于训练时测试网络准确率。
Test Set用于测试网络训练完成后的最终正确率。
Caffe生成的数据分为2种格式:Lmdb和Leveldb。
它们都是键/值对(Key/Value Pair)嵌入式数据库管理系统编程库。
虽然lmdb的内存消耗是leveldb的1.1倍,但是lmdb的速度比leveldb快10%至15%,更重要的是lmdb允许多种训练模型同时读取同一组数据集。
因此lmdb取代了leveldb成为Caffe默认的数据集生成格式。
Google Protocol Buffer的安装
Protocol Buffer是一种类似于XML的用于序列化数据的自动机制。
首先在Protocol Buffers的中下载最新版本:
https://developers.google.com/protocol-buffers/docs/downloads
解压后运行:
./configure $ make $ make check $ make install pip installprotobuf
exportLD_LIBRARY_PATH=/usr/local/lib:$LD_LIBRARY_PATH
Lmdb的安装
pip install lmdb
要parse(解析)一个protobuf类型数据,首先要告诉计算机你这个protobuf数据内部是什么格式(有哪些项,这些项各是什么数据类型的决定了占用多少字节,这些项可否重复,重复几次),安装protobuf这个module就可以用protobuf专用的语法来定义这些格式(这个是.proto文件)了,然后用protoc来编译这个.proto文件就可以生成你需要的目标文件。
想要定义自己的.proto文件请阅读:
https://developers.google.com/protocol-buffers/docs/proto?hl=zh-cn
编译.proto文件
protoc--proto_path=IMPORT_PATH --cpp_out=DST_DIR --java_out=DST_DIR--python_out=DST_DIR path/to/file.proto--proto_path 也可以简写成-I 是.proto所在的路径
输出路径:
--cpp_out 要生成C++可用的头文件,分别是***.pb.h(包含申明类)***.pb.cc(包含可执行类),使用的时候只要include “***.pb.h”
--java_out 生成java可用的头文件
--python_out 生成python可用的头文件,**_pb2.py,使用的时候import**_pb2.py即可
最后一个参数就是你的.proto文件完整路径。
欢迎参与讨论并关注本博客和微博以及知乎个人主页后续内容继续更新哦~
转载请您尊重作者的劳动,完整保留上述文字以及文章链接,谢谢您的支持!
让Caffe生成的数据集能在Theano上直接运行(一)——lmdb与protobuf
原文地址:http://blog.csdn.net/ycheng_sjtu/article/details/40361947