《人工智能及其应用》课件第10章 视觉感知与识别.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《人工智能及其应用》课件第10章 视觉感知与识别.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能及其应用 人工智能及其应用课件第10章 视觉感知与识别 人工智能 及其 应用 课件 10 视觉 感知 识别
- 资源描述:
-
1、第第1010章章 视觉感知与识别视觉感知与识别 人类人类很容易让自己陷入对机器的依赖,以至于不得不接受一很容易让自己陷入对机器的依赖,以至于不得不接受一切都交给机器处理的现实。随着整个人类社会及其面临的问题越切都交给机器处理的现实。随着整个人类社会及其面临的问题越来越复杂,机器也将变得越来越智能。来越复杂,机器也将变得越来越智能。泰德卡钦斯基,199510.110.1图像生成图像生成10.110.1图像生成图像生成10.1.210.1.2透镜系统透镜系统 小孔小孔照相机的缺点在于我们需要一个尺寸小的小孔来确保图像聚焦,但照相机的缺点在于我们需要一个尺寸小的小孔来确保图像聚焦,但这个小孔越小,到
2、达图像平面的光子就会越少,意味着图像会很暗这个小孔越小,到达图像平面的光子就会越少,意味着图像会很暗。当当我们把小孔的尺寸放大时,确实能够获得更多的光子,但同时也会造我们把小孔的尺寸放大时,确实能够获得更多的光子,但同时也会造成运动模糊,场景中运动的物体在成像时会因为光子到达不同的地方而产生成运动模糊,场景中运动的物体在成像时会因为光子到达不同的地方而产生模糊的效应。模糊的效应。脊椎动物的眼晴和现代照相机都使用透镜系统。透镜要比小孔大得多,脊椎动物的眼晴和现代照相机都使用透镜系统。透镜要比小孔大得多,因此能够透过足够的光线。因此能够透过足够的光线。透镜系统拥有一个有限的景深。只能对一定距离(焦
3、平面)左右的物体透镜系统拥有一个有限的景深。只能对一定距离(焦平面)左右的物体清晰成像,在这个范围以外的物体成像时将超出图像平面,人眼系统可以通清晰成像,在这个范围以外的物体成像时将超出图像平面,人眼系统可以通过改变形状来调整焦平面,而在照相机中,则可以通过镜头的来回移动来改过改变形状来调整焦平面,而在照相机中,则可以通过镜头的来回移动来改变焦平面。变焦平面。10.110.1图像生成图像生成10.1.310.1.3光线和阴影光线和阴影 图像图像中一个像素的亮度可以看作这个像素代表的场景中物体点的亮度为中一个像素的亮度可以看作这个像素代表的场景中物体点的亮度为自变量的函数自变量的函数。假设假设这
4、是一个线性模型(现代照相机在极亮或极暗时表现为非线性,但这是一个线性模型(现代照相机在极亮或极暗时表现为非线性,但正常情况下均为线性)正常情况下均为线性)。10.110.1图像生成图像生成10.1.310.1.3光线和阴影光线和阴影 第一第一种引起亮度不同的原因是光线的整体强度。一个处于阴影(种引起亮度不同的原因是光线的整体强度。一个处于阴影(ShadowShadow)中的白色物体甚至可能暗于直接处于太阳光下的黑色物体,人眼可以很好地中的白色物体甚至可能暗于直接处于太阳光下的黑色物体,人眼可以很好地分辨相对亮度,从而判断出哪个为白色物体分辨相对亮度,从而判断出哪个为白色物体。第二第二种原因是场
5、景中不同的点对光的反射有多有少。通常情况是,人感种原因是场景中不同的点对光的反射有多有少。通常情况是,人感知这些点或明或暗,从而看到物体的纹理或斑纹知这些点或明或暗,从而看到物体的纹理或斑纹。第三第三种情况是面向光的面比偏离光源方向的面更亮,这称为明暗种情况是面向光的面比偏离光源方向的面更亮,这称为明暗(ShadingShading)效应。特别是,人们可说出这种明暗来自物体的几何状态,但有)效应。特别是,人们可说出这种明暗来自物体的几何状态,但有时候可能会将明暗与斑纹混淆。如颧骨下的灰暗化妆品看上去像阴影,从而时候可能会将明暗与斑纹混淆。如颧骨下的灰暗化妆品看上去像阴影,从而使得人脸看上去比真
6、实的瘦。使得人脸看上去比真实的瘦。10.110.1图像生成图像生成10.1.410.1.4色彩色彩 人人眼接收到的光集中在波长为眼接收到的光集中在波长为380750nm380750nm这个区域,主要通过三种颜色接这个区域,主要通过三种颜色接收细胞来区分不同的颜色,如收细胞来区分不同的颜色,如420nm420nm的蓝色,的蓝色,540nm540nm的绿色及的绿色及570nm570nm的红色。的红色。三原色三原色原则(原则(Principle of Principle of TrichromacyTrichromacy)说明无论一种颜色多么复杂,)说明无论一种颜色多么复杂,我们都可以通过三种颜色的
7、混合来构成一种与原颜色不能分辨的新颜色我们都可以通过三种颜色的混合来构成一种与原颜色不能分辨的新颜色。这这一原理说明我们的电视及计算机显示器可以仅仅关心三种基本的颜色一原理说明我们的电视及计算机显示器可以仅仅关心三种基本的颜色。物体物体表面的反射率可以化为表面的反射率可以化为R/G/BR/G/B的三个反射率,同样,任意光源也可以的三个反射率,同样,任意光源也可以看成是有看成是有R/G/BR/G/B三种光源所组成三种光源所组成。10.2.110.2.1边缘检测边缘检测10.2.110.2.1边缘检测边缘检测10.2.210.2.2纹理纹理 纹理纹理,在日常用语中,是对表面的视觉感觉,在日常用语中
8、,是对表面的视觉感觉,“纹理(纹理(Texture)Texture)”一词一词与与“纺织物纺织物(Textile)(Textile)具有相同的词根,在计算视觉中,它指的是在表面空具有相同的词根,在计算视觉中,它指的是在表面空间上重复出现的、能够通过视觉感觉到的模式间上重复出现的、能够通过视觉感觉到的模式。纹理纹理的实例包括建筑物上窗户的模式、汗衫上的针脚,美洲豹皮肤上的的实例包括建筑物上窗户的模式、汗衫上的针脚,美洲豹皮肤上的花斑、草地上一片一片的草、海滩上的卵石以及体育场中的人群花斑、草地上一片一片的草、海滩上的卵石以及体育场中的人群。10.2.310.2.3光流光流 当当图像中的物体在运动
9、或是我们的镜头在相对物体运动时,由此引起的图像中的物体在运动或是我们的镜头在相对物体运动时,由此引起的图像中的明显的运动我们称之为光流。光流描述了图像的运动方向和速度,图像中的明显的运动我们称之为光流。光流描述了图像的运动方向和速度,当然一幅图像中的车辆的速度不是用每小时多少公里而是用每秒钟多少像素当然一幅图像中的车辆的速度不是用每小时多少公里而是用每秒钟多少像素来描述来描述。如如图图10.4(a)10.4(a)和和(b)(b)显示的是一个视频中网球运动员的相邻两帧图像,从显示的是一个视频中网球运动员的相邻两帧图像,从(c)(c)中我们计算出的光流向量来看,球拍和运动员的前脚正在快速移动,注意
10、中我们计算出的光流向量来看,球拍和运动员的前脚正在快速移动,注意箭头方向是如何捕提球怕和前腿的运动的。箭头方向是如何捕提球怕和前腿的运动的。10.2.410.2.4图像分割图像分割 分割分割(SegmentationSegmentation)是指基于像素点的相似性将图像分解成若干区域)是指基于像素点的相似性将图像分解成若干区域的过程的过程。其其基本思想如下:每个图像像素都可以关联某些视觉特性,诸如亮度、基本思想如下:每个图像像素都可以关联某些视觉特性,诸如亮度、色彩和纹理。在一个物体中,或者是它的单独一部分中,这些属性的变化相色彩和纹理。在一个物体中,或者是它的单独一部分中,这些属性的变化相对
11、非常小,而穿过物体之间的边界时,典型情况下这些属性中的一个或多个对非常小,而穿过物体之间的边界时,典型情况下这些属性中的一个或多个会出现较大的变化。有两种方法可用于图像分割,种主要致力于检测这些区会出现较大的变化。有两种方法可用于图像分割,种主要致力于检测这些区域的边界,而另一种则致力于检测出区域本身,如图域的边界,而另一种则致力于检测出区域本身,如图10.510.5所示。所示。10.310.3基于外观的目标检测基于外观的目标检测 外观指的是一个物体看上去的情况。一些物体类,比如说棒球在外观上外观指的是一个物体看上去的情况。一些物体类,比如说棒球在外观上变化很小,在大部分的情形下这类物体看起来
12、基本一样。变化很小,在大部分的情形下这类物体看起来基本一样。可以计算一些描述包含这些物体的图像的特征,然后据此训练出分类器。可以计算一些描述包含这些物体的图像的特征,然后据此训练出分类器。用一个比较好的分类器来对各类物体进行训练比较重要,特别是对于看用一个比较好的分类器来对各类物体进行训练比较重要,特别是对于看着照相机的人脸来说,效果特别好,这是因为在低分辨率以及合适的关照情着照相机的人脸来说,效果特别好,这是因为在低分辨率以及合适的关照情况下,几乎所有的人脸看上去都差不多。况下,几乎所有的人脸看上去都差不多。10.410.4人脸识别人脸识别 人人脸识别是基于人的脸部特征信息进行身份识别的一种
13、生物识别技术,脸识别是基于人的脸部特征信息进行身份识别的一种生物识别技术,用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟用摄像机或摄像头采集含有人脸的图像或视频流,并自动在图像中检测和跟踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做踪人脸,进而对检测到的人脸进行脸部识别的一系列相关技术,通常也叫做人像识别、面部识别。人像识别、面部识别。10.4.110.4.1人脸库人脸库 利用利用公共人脸库演示人脸识别算法的原理和过程,目前有很多公共的人公共人脸库演示人脸识别算法的原理和过程,目前有很多公共的人脸数据库,以脸数据库,以olivettiolivetti人脸
14、库为例,该数据库也称人脸库为例,该数据库也称ORLORL人脸库,由英国剑桥大人脸库,由英国剑桥大学学AT&TAT&T实验室创建,包含实验室创建,包含4040人共人共400400张面部图像,每人包含张面部图像,每人包含1010幅经过归一化处幅经过归一化处理的灰度图像,图像尺寸均为理的灰度图像,图像尺寸均为112112(高或行)(高或行)9292(宽或列),图像背景为黑(宽或列),图像背景为黑色色。其中其中采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平闭着以及戴或
15、不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达面旋转可达2020度。度。10.4.110.4.1人脸库人脸库 利用利用公共人脸库演示人脸识别算法的原理和过程,目前有很多公共的人公共人脸库演示人脸识别算法的原理和过程,目前有很多公共的人脸数据库,以脸数据库,以olivettiolivetti人脸库为例,该数据库也称人脸库为例,该数据库也称ORLORL人脸库,由英国剑桥大人脸库,由英国剑桥大学学AT&TAT&T实验室创建,包含实验室创建,包含4040人共人共400400张面部图像,每人包含张面部图像,每人包含1010幅经过归一化处幅经过归一化处理的灰度图像,图像尺寸均为理的灰度图
16、像,图像尺寸均为112112(高或行)(高或行)9292(宽或列),图像背景为黑(宽或列),图像背景为黑色色。其中其中采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或采集对象的面部表情和细节均有变化,例如笑与不笑、眼睛睁着或闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平闭着以及戴或不戴眼镜等,不同人脸样本的姿态也有变化,其深度旋转和平面旋转可达面旋转可达2020度。度。10.410.4人脸识别人脸识别10.4.2 10.4.2 最近邻方法最近邻方法 最近邻最近邻人脸识别算法在数学上的原理是将人脸图像矩阵拉直人脸识别算法在数学上的原理是将人脸图像矩阵拉直变成一个向量
展开阅读全文