您的位置:首页 > 理论基础

TensorFlow入门:如何导入MNIST数据集和Cifar数据集

2017-09-03 13:33 337 查看
源代码链接:http://pan.baidu.com/s/1hrDM9us

MNIST官网链接:http://yann.lecun.com/exdb/mnist/

Cifar官网链接:http://www.cs.toronto.edu/~kriz/cifar.html

作者:XJTU_Ironboy

时间:2017年9月

开头语

  TensorFlow编程学习的入门一般都是基于MNIST手写数字数据集和Cifar(包括cifar-10cifar-100)数据集,因为它们都比较小,一般的设备即可进行训练和测试。而相比之下虽然基于ImageNet分类数据集的实验更具有意义,更加权威,但由于ImageNet数据集实在太大,不便于入门的童靴直接上手操作。所以接下来,我将只讲一下如何用TensorFlow导入MNISTCifar数据集。

一、MNIST

1.介绍

  MNIST是一个手写数字数据库,它有60000个训练样本集和10000个测试样本集。它是NIST数据库的一个子集。其中每张图片固定大小为28×28×1(黑白图片,最后一个1指一个通道)。如下图所示:



2.TensorFlow导入

  首先解释,由于图像是二维的,而实际计算机的存储空间是一维的,所以如果要查看MNIST库中的具体图片,是要经过reshape的。接下来讲一下具体怎么导入。

① 导入相应的库,并且导入数据(当前文件夹下没有MNIST库的话会自动下载);



② 接下来,定义输入,reshape,将一维数据转为二维图片;



③ 接下来,在正式训练过程中,图片是一个batch一个batch随机选取图片输进去的,那么就需要如下设置;



④ 最后,测试集10000张同时全部输入。



二、Cifar

1.介绍

  Cifar数据集包括两个——Cifar-10和Cifar-100,其中Cifar-10的分类类别是10种,相应的Cifar-100的分类类别是100种。

  Cifar-10的图片大小是32×32×3(彩色图片,三个通道),其中有50000张图片是训练集,10000张图片是测试集,10个类别,每个类别有6000张图片。而Cifar-100和Cifar-10图片大小相似,其中有50000张图片是训练集,10000张图片是测试集,100个类别,每个类别有600张图片。

2.TensorFlow导入

  由于Cifar-10和Cifar-100的导入方式其实是相同的,此处主要以导入Cifar-10为例。

① 调用相应的文件(同意文件夹下,文章开头源代码有下载),并且导入数据(当前文件夹下没有MNIST库的话会自动下载);



② 接下来,定义输入,reshape,将一维数据转为二维图片;



③ 接下来,在正式训练过程中,图片是一个batch一个batch随机选取图片输进去的,那么就需要如下设置;


④ 最后,测试集10000张同时全部输入,这里当然不需要这么写,但是为了方便一些其它的测试方式(每训练多少步随机选取图片进行测试),建议使用这种容易配置的方式。



总结

  看完上面的介绍,我们发现其实导入MNIST库和Cifar库其实是很简单的,但是这两个数据库只是入门级别的,真正的论文中能作为支撑材料的实验最好是在ImageNet上完成,那个导入数据的方法有兴趣的可以自行搜索寻找,我找过一个,大家可以参考一下:http://www.cnblogs.com/whu-zeng/p/6382541.html 。ML的学习需要坚持不懈,希望大家在MNIST库和Cifar库上入门之后能够继续奋勇前行,攀登一座又一座的科学高峰。
内容来自用户分享和网络整理,不保证内容的准确性,如有侵权内容,可联系管理员处理 点击这里给我发消息