码迷,mamicode.com
首页 > 其他好文 > 详细

SVHN

时间:2015-06-13 18:21:41      阅读:1667      评论:0      收藏:0      [点我收藏+]

标签:

The Street View House Numbers (SVHN) Dataset

  街景门牌号数据集是真实世界的数据,为了发展最少的数据预处理和格式化的机器学习和目标识别算法。类似于MNIST,但规模更大。并且都是来自于明显更加困难的,没有解决的现实世界的问题。数据是从谷歌街景图片中获得的。

总共有10类。数字1标记为1,数字9标记为9。数字0标记为10。

有训练集73257,测试集26032。还有531131附加的,更加简单采样的数据,可以作为训练集。

总共有两种格式:

1、在字符级别带有包围框的原始图片。

2、类似于MNIST的32x32的图片,以单个字符为中心(许多图片的边缘都有一些干扰)

 

格式1:完整的数字train.tar.gztest.tar.gz , extra.tar.gz

技术分享

 

  如上图所示,都是原始数据。在分辨率和颜色上存在差异性的图片,在字符级别上带有边界框。(蓝色的边框只是起说明作用,边框并不是直接画在图片上,而是保存在digitStruct.mat文件中)  

  每一个tar.gz文件包含以png保存的原始图片和digitStruct.mat文件。digitStruct.mat有一种被称为digitStruct的结构。它有着和原始图片相同的长度。

  digitStruct中的每个元素都一下字段:

    name:包含对应图片的文件名

    bbox:是一个包含图片边界框位置、尺寸和标签的结构数组

    例如:digitStruct(300).bbox(2).height给出了第300张图片第2个数字边界框的高度

格式2:裁切不正的数字:train_32x32.mattest_32x32.mat , extra_32x32.mat

技术分享

 

所有的图片都被缩放到一个固定的32x32的尺寸上。类似于把格式1中的边界框放大为一个方框。个人感觉这数据应该就是格式1由于不小心没处理好的数据。

  导入这个.mat文件产生两个变量:

    X是一个4维矩阵包含图片

    Y是一个包含类标签的向量

    例如:X(:,:,:,i) 给出了第i个 32x32的RGB图像,类标签为 y(i)

Reference

Please cite the following reference in papers using this dataset:

Yuval Netzer, Tao Wang, Adam Coates, Alessandro Bissacco, Bo Wu, Andrew Y. Ng Reading Digits in Natural Images with Unsupervised Feature Learning NIPS Workshop on Deep Learning and Unsupervised Feature Learning 2011. (PDF)

Please use http://ufldl.stanford.edu/housenumbers as the URL for this site when necessary 

For questions regarding the dataset, please contact streetviewhousenumbers@gmail.com

SVHN

标签:

原文地址:http://www.cnblogs.com/yymn/p/4573793.html

(0)
(0)
   
举报
评论 一句话评论(0
登录后才能评论!
© 2014 mamicode.com 版权所有  联系我们:gaon5@hotmail.com
迷上了代码!