第5章:MNIST数据集简介课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第5章:MNIST数据集简介课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- MNIST 数据 简介 课件
- 资源描述:
-
1、张明 副教授 人工智能原理:基于Python语言和TensorFlow第五章:MNIST机器学习1.MNIST数据集简介2.MNIST数据下载3.softmax回归模型简介4.模型的训练与评估5.TensorFlow模型基本步骤6.构建softmax回归模型5.1:MNIST数据集简介1 MNIST数据集的概念2 MNIST数据集功能3 MNIST数据集组成1:MNIST数据集的概念当学习任意一门计算机语言进行编程时,首先接触的第一个程序就是打印“Hello World”。大家接触每一种编程语言都会有Hello World作为第一个编程任务,在人工智能机器学习领域也不例外。学习人工智能的初学者
2、,通过使用MNIST(Mixed National Institute of Standards and Technology database)手写数字识别任务的练习,来对人工智能TensorFlow进行最初步的应用。1:MNIST数据集的概念手写数字的MNIST数据集l 手写数字的MNIST数据集来自于美国国家标准与技术研究所(NIST),它是一个庞大的手写数字数据库,也是网上著名的公开数据集之一。l 包含了60,000个训练示例图片以及10,000个测试图片,数据集的图片分别代表了阿拉伯数字0阿拉伯数字9中的任意一个数字,图片只包含灰度值信息,规格尺寸为2828,所以每一张图片就是拥有7
3、84(2828)列的数据,数字位于整张图片的最中央位置,它是NIST提供的更大集合的一个子集。l 训练集(training set)由来自250个不同人手写的数字构成,其中50%是高中学生,50%来自人口普查局(the Census Bureau)的工作人员。测试集(test set)也是同样比例的手写数字数据。5.1:MNIST数据集简介1 MNIST数据集的概念2 MNIST数据集功能3 MNIST数据集组成2:MNIST数据集功能数据集有两个功能:(1)提供了大量的数据作为训练集和测试集,为一些兴趣爱好者和学习者提供了丰富的资源信息。(2)形成一个业界领域具有一定对比程度的项目,不同的研
4、究者使用了相同的数据集,从而可以更加方便地将结果进行对比,从而验证出哪种设计的程序识别率更高。MNIST是一个简单的计算机视觉数据集。它由图5-1所示的手写数字的图像组成。它还包括每个图像的标签,以便清楚地告诉我们出现的是什么数字。例如,上述图像的标签分别是5、2、5、3,所以,MNIST数据集中的每张数据图片都被事先标注了相应的阿拉伯数字。5.1:MNIST数据集简介1 MNIST数据集的概念2 MNIST数据集功能3 MNIST数据集组成3:MNIST数据集组成将MNIST数据集从官方网站下载完毕,下载下来的数据集图片被分成两部分:包含了60000张图片的训练数据集(mnist.train
5、)包含了10000张图片的测试数据集(mnist.test)其中,训练数据集用来提供给使用者进行模型的训练,以期训练出合适的模型;测试数据集用来提供给使用者对前一个阶段训练出的模型进行性能上的测试,在机器学习模型设计阶段,必须要设置一个单独的测试数据集用来评估模型的性能,这个测试数据集不用于训练。3:MNIST数据集组成MNIST数据单元分为两个部分:一张包含手写数字的图片 一个对应的标签我们把图片设为“xs”,把这些标签设为“ys”。训练数据集和测试数据集都含有xs和ys,可以将训练数据集的图片名称设定为mnist.train.images,将训练数据集的标签设定为mnist.train.l
6、abels。3:MNIST数据集组成每一张图片包含28像素28个像素点,可以用一个数字数组来表示这张图片,如图5-2所示。将这个数字数组展开成一个向量,长度是2828=784。数字间的顺序不重要,只要保持各个图片采用相同的方式展开。图5-23:MNIST数据集组成 MNIST数据集的图片就是在784维向量空间里面的点,并且拥有比较复杂的结构。在MNIST训练数据集中,mnist.train.images是一个形状为60000,784的张量,第一个维度数字用来索引图片,第二个维度数字用来索引每张图片中的像素点。在此张量里的每一个元素,都表示某张图片里的某个像素的强度值,值介于0和1之间,如图5-
7、3所示:图5-33:MNIST数据集组成 MNIST数据集的标签mnist.train.labels是介于0到9的数字,用来描述给定的训练图片里所表示的数字。标签数据用“one-hot vectors”的形式来表示,所谓的one-hot是指一位有效编码,即,我们使用n维度的向量来表示n个类别,这其中,每一个类别都会占据相对独立的一个位置,因此,一个one-hot向量即为除了某一特定位置的数字是1以外,其余各维度数字都是0。数字n将表示成一个只有在第n维度(从0开始)数字为1的10维向量。3:MNIST数据集组成因此,mnist.train.labels是一个60000,10的10维度数字矩阵,
8、如图5-4所示。图5-4第五章:MNIST机器学习1.MNIST数据集简介2.MNIST数据下载3.softmax回归模型简介4.模型的训练与评估5.TensorFlow模型基本步骤6.构建softmax回归模型5.2:MNIST数据下载1 数据的准备2 数据重构3 数据集对象1:数据的准备下载MNIST数据集,需要到它的官方网站进行下载,如图5-5所示:图5-51:数据的准备MNIST数据集是一个完全公开的数据集,任何的算法都可以拿来并应用MNIST数据集进行测试,如图5-6所示。图5-61:数据的准备 MNIST数据集官方网站上下载以下四种数据文件作为训练集与测试集:l Train-ima
9、ges-idx3-ubyte.gz:训练集图片55000张训练图片和5000张验证图片。l Train-labels-idx1-ubyte.gz:训练集图片对应的数字标签。l t10k-images-idx3-ubyte.gz:测试集图片-10000张测试图片。l t10k-labels-idx1-ubyte.gz:测试集图片对应的数字标签。1:数据的准备 通过Python源代码可以进行数据集的自动下载和安装,然后使用下列程序代码内容将之导入到项目里面,代码如下所示。1:数据的准备 接下来继续通过代码的具体内容来分析MNIST内容,代码如下所示。1:数据的准备 最后通过下列代码可以查看相关数据
展开阅读全文