深度学习在图像理解中的应用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《深度学习在图像理解中的应用课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 深度 学习 图像 理解 中的 应用 课件
- 资源描述:
-
1、深度学习在图像理解中的应用深度学习在图像理解中的应用图像理解的定义传统图像理解技术 深度学习基础知识深度学习图像理解技术 图像理解进阶图像理解的定义传统图像理解技术 深度学习基础知识图像理解的定义 互联网中的图像理解 图像理解的研究内容图像理解的定义互联网中的图像理解图像是互联网最大的多媒体载体图像是互联网最大的多媒体载体互联网图像的多样性证件照自拍照商品照景点照活动照特殊照片互联网图像的多样性证件照自拍照商品照景点照活动照特殊照片一图胜万言一图胜万言一图胜万言第三世界 美帝国主义 中国制造 日本文化渗透.一图胜万言第三世界图像搜索与标签领域图像搜索与标签领域商品搜索与推荐领域商品搜索与推荐领
2、域人脸/文本等特定领域人脸/文本等特定领域视频领域视频领域图像处理领域图像处理领域图像理解的定义 互联网中的图像理解 图像理解的研究内容图像理解的定义互联网中的图像理解图像理解的研究内容 图像理解是计算机视觉领域的基础技术 图像理解研究图像的类型,图像中物体的位置,物体之间的关系等woman 0.95;dog 0.93;tv 0.97a woman is sitting front a dog and a tv.识别检测分割图像问答定义图像理解的研究内容图像理解是计算机视觉领域的基础技术w o m a图像分类 图像分类是所有研究的基础图像分类图像分类是所有研究的基础图像分类 图像分类无处不在图
3、像分类图像分类无处不在图像分类 14,197,122 images 21841 synsets 1,034,908 with boxes 1000 classes 126W trainset 2017 最后一届图像分类1 4,1 9 7,1 2 2 i m a g e s图像分类webvision 2.4 million of images from flickrweekly supervisedMNIST:10 classes,60000 imagesPASCAL VOC:20 classesCIFAR:10 classes,60000 imagesPlaces205 scenes2.5 m
4、illion images图像分类w e b v i s i o n 2.4 m i l l i o n o f i图像分类图像分类物体检测物体检测物体检测物体检测物体分割物体分割物体检测/分割MSCOCO:330K images(200K labeled)1.5 million object instances 80 object categories91 stuff categories 5 captions per image物体检测/分割MS C O C O:3 3 0 K i m a g e s (2图像问答图像问答图像问答108,077 Images5.4 Million Regi
5、on Descriptions1.7 Million Visual Question Answers图像问答1 0 8,0 7 7 I m a g e s图像理解的研究内容类别X区域woman 0.95;dog 0.93;tv 0.97a woman is sitting front a dog and a tv.识别检测分割图像问答像素语义图像理解的研究内容类别X 区域w o m a n 0.9 5;d o g 图像理解的研究内容图像理解的研究内容图像理解的定义OCR人脸识别/检索商品检索图像标签行为识别智能鉴黄图像理解的定义O C R 人脸识别/检索商品检索图像标签行为识别智互联网图像开放
6、平台互联网图像开放平台图像理解的定义传统图像理解技术深度学习基础知识深度学习图像理解技术 图像理解进阶图像理解的定义传统图像理解技术深度学习基础知识传统图像理解技术 图像分类的问题描述 图像分类的基本方法 图像搜索系统传统图像理解技术图像分类的问题描述图像分类图像分类图像分类F(x)XYC(x)图像分类F(x)X Y C(x)图像分类问题描述F(x)representation learning如何获得更好的特征:将原始输入转化为特征向量C(x)classification learning如何学习目标函数:基于特征向量学一个优化问题F(x)XYC(x)图像分类问题描述F(x)r e p r
7、e s e n t a t i o n l e相似图像检索问题描述给定输入图像x和图像库X从X中找出与x最相似的一组图像y问题抽象F(x):抽取x和X的图像特征C(x):计算x和X两组特征之间相似度相似度排序相似图像检索问题描述相似图像检索 图像指纹 低频信息能够提供近似的形状和纹理信低频信息能够提供近似的形状和纹理信息息 图像灰度化后缩放到8*8大小;计算图像平均值,比较每个像素与平均值大小输出0/1;组合64维0/1值得到图像指纹;计算hash向量的汉明距离 优点:速度快,存储小,对图像缩放颜色变化不敏感 缺点:平移/噪声 PHash:DCT变换抽取低频特征 dHash:计算相邻像素点 h
8、ash=I(x+1)-I(x)相似图像检索图像指纹相似图像检索 颜色直方图 两幅相似的图像之间具有类似的颜色直方两幅相似的图像之间具有类似的颜色直方图图 F(x):抽取图像颜色直方图特征 C(x):计算两组直方图之间距离 优点:特征提取简单,相似度计算方便,对图像旋转、尺度等变化不敏感 缺点:颜色相似,没有形状信息 颜色空间:RGB,YUV,Gray 特征空间:特征量化,颜色矩,颜色熵,分块直方图,颜色聚类相似图像检索颜色直方图优点:特征提取简单,相似度计算方便,对相似图像检索F(x):图像灰度值hash指纹dct变换颜色直方图C(x):欧式距离汉明距离余弦距离相似图像检索F(x):相似图像检
9、索 视角,遮挡,类内相似性,类间相似性等相似图像检索视角,遮挡,类内相似性,类间相似性等传统图像理解技术 图像分类的问题描述 图像分类的基本方法 图像搜索系统传统图像理解技术图像分类的问题描述图像特征 将一副图像转化为一个数学表达(vector)相似的图像具有相似的表达 不相似的图像具有相异的表达 一个好的特征描述子:鲁棒:对尺度,遮挡,光照等不敏感;准确:个体鉴别信息;高效:快速计算;存储空间小;方便查询;全局特征与局部特征两种图像特征将一副图像转化为一个数学表达(v e c t o r)全局特征 如何使特征具有本体不变性:gradiant filter:邻域不变性wavelet filet
10、r:高频低频分离全局特征如何使特征具有本体不变性:w a v e l e t f i l e tGabor:以高低函数为窗函数的 短时傅立叶变换 Uncertainty Relation for Resolution in Space,Spatial Frequency,and Orientation Optimized by Two-dimensional Visual Cortical Filters,J.G.Daugman,1985全局特征G a b o r:以高低函数为窗函数的 短时傅立叶变换U n c e r LBP:统计邻域的图像变化 分块计算lbp 分块统计直方图 直方图串联 L
11、TP LLE Multi-Block LBP CLBP.Face Recognition with Local Binary Patterns,T.Ahonen,A.Hadid,and M.Pietikine,ECCV2004全局特征L B P:统计邻域的图像变化分块计算l b p F a c e R e c o g全局特征 HOG 梯度方向直方图 图像归一化 计算图像梯度 按梯度方向统计直方图 串联邻域块直方图,并归一化全局特征H O G 梯度方向直方图 gistcentrist Modeling the shape of the scene:a holistic representatio
12、n of the spatial envelope,Aude OlivaAntonio Torralba,IJCV01 Evaluation of GIST descriptors for web-scale image search,Douze,Jegou,Sandhawalia,Amsaleg,Schmid,CIVR09 CENTRIST:A Visual Descriptor for Scene Categorization,PAMI 05全局特征g i s t c e n t r i s t Mo d e l i n g t h e s h a p e全局特征 如何应对图像旋转变化 图
13、像分块全局特征如何应对图像旋转变化局部特征 如何应对图像旋转变化 局部特征检测 更鲁棒的图像特征描述子局部特征如何应对图像旋转变化局部特征 使用最广泛的局部特征:SIFT 特征点检测特征点检测:金字塔匹配 邻域插值 去除边缘点 极大值抑制 基于特征点计算极值点 基于hessian计算曲率 Distinctive image features from scale-invariant keypoints,Lowe,IJCV04.局部特征使用最广泛的局部特征:S I F T D i s t i n c t i v局部特征 使用最广泛的局部特征:SIFT 特征描述特征描述:统计关键点邻域的梯度方向
14、生成梯度方向直方图,基于主方向旋转图像 分块统计梯度直方图,组合邻域直方图为特征描述子,并归一化 通常每个特征点,选取邻域4*4块,每块对应8维直方图,共128维特征局部特征使用最广泛的局部特征:S I F T 生成梯度方向直方图,局部特征描述子 SIFT加速-SURF 不建立金字塔,而改变kernel 通过hessian矩阵计算极值点 计算harr小波响应,只有水平和垂直两个方向 从一个扇形方向开始,以固定步长进行旋转,找到其中最大响应的扇形为主方向 特征描述子维度为4*4*4=64维 速度是SIFT的3-7倍;大部分情况下它和SIFT的性能相当 SURF:speeded up robust
15、 features,Bay,Tuytelaars,Van Gool,ECCV06.局部特征描述子S I F T 加速-S U R F S U R F:s p e局部特征描述子 SIFT加速-DAISY sift特征点旋转时,需要重新计算梯度直方图 daisyk通过高斯核卷积替代方向投影,实现快速计算 DAISY:An Efficient Dense Descriptor Applied to Wide-Baseline Stereo.Engin Tola,Vincent Lepetit,Pascal Fua.PAMI10局部特征描述子S I F T 加速-D A I S Y D A I S Y
16、:A局部特征特征点检测XY特征描述子局部特征特征点检测X Y 特征描述子特征点检测 提供旋转不变性 减少特征描述子数目 重复性:相同的区域能被重复检测,且不受旋转模糊光照等影响 可区分:基于检测子抽取的特征能够相互匹配 数量适宜:减少匹配复杂度和提升精度 速度快:检测速度越快越好特征点检测提供旋转不变性特征点检测 传统的特征检测子 Maximally Stable Extremal Regions(MSER)Difference of Gaussians(DoG)Harris-Affine and Hessian-Affine A Comparison of Affine Region Det
17、ectors,K.Mikolajczyk,TuytelaarsC.SchmidA.ZissermanJ.MatasF.SchaffalitzkyT.KadirL.Van Gool,IJCV2004特征点检测传统的特征检测子A C o m p a r i s o n o f A特征点检测 Harris角点 一个patch向各方向移动时,patch内图像灰度没有变化,则patch内不存在角点 一个patch向某个方向移动时,patch内图像灰度发生了变化,而在另一些方向上没 有发生变化,则窗口内的图像可能是一条直线特征点检测H a r r i s 角点特征点检测 Fast/AGAST 若某像素点与
18、其周围领域内足够多的像素点处于不同的区域,则该像素点可能为角点 取每个像素p为中心的16邻域点 迭代计算:计算p1/p9与中心p的像素差,均超过阈值 计算p1/p9/p5/p13与中心p的像素差,至少3个超过阈值 计算p1-p16与中心p的像素差,至少9个超过阈值 对所有特征点进行非极大值抑制 Faster and better:A machine learning approach to corner detection,Edward Rosten,Reid Porter,Tom Drummond,PAMI2010特征点检测F a s t/A G A S T F a s t e r a n
19、d b e t t特征点检测 fast相比于SIFT/SURF 不具备尺度不变性 对噪声更加敏感 对旋转放射变换敏感特征点检测f a s t 相比于S I F T/S U R F特征描述子 二进制描述子:SIFT和SURF float特征维度过高 PCA特征降维 hash二值化 BRIEF 在特征点邻域内任意比较点对大小获得0/1编码,每个patch获得N维0/1向量 BRISK 以特征点为圆心,构建多个不同半径的离散化Bresenham同心圆,然后再每一个 同心圆上获得具有相同间距的N个采样点 FREAK 越靠近中心的区域采样更密集,四周区域采样稀疏,随机对比各区域的像素得到一 组2值特征特
20、征描述子二进制描述子:特征描述子 ORB(Oriented FAST and Rotated BRIEF):增加FAST的旋转不变性:角点的灰度与质心之间存在一个偏移 增加BRIEF的旋转不变性 BRIEF描述子是一个长度为n的二值码串,该2n点可以组成矩阵 根据角点方向投影每组向量到对应的角度空间 ORB:An efficient alternative to SIFT or SURF.Ethan Rublee,Vincent Rabaud,Kurt Konolige,Gary Bradski.ICCV2011特征描述子O R B (O r i e n t e d F A S T a n d
21、 R o图像特征 图像检测子和描述子紧密关联 检测子越多,抽取特征时间越长,噪声也越多;检测子越少,有效匹配对数越少;加速和场景紧密相关 FAST+ORB在物体跟踪与匹配上很有效 SIFT在图像检索中很有效SIFTSURFORBBRISKmatch time2.914.130.220.73match pairs1723/9202633/1173500/213660/313feature dim12864256256图像特征图像检测子和描述子紧密关联S I F T S U R F O R B B R分类器与降维 低维特征包含信息太少 高维特征包含噪声和冗余 非线性空间的表达能力 减小计算量分类器
22、与降维低维特征包含信息太少分类器与降维 PCA LLE 获得最进邻点 基于近邻点计算出局部重建权值矩阵 基于局部重建权值矩阵和近邻点得到投影点分类器与降维P C A L L E分类器与降维 Sparse Coding 基于一组给定的随机patches,学习一个字典 对其中每个向量,解一个LASSO使得 迭代优化 固定字典f,优化a 固定a,优化字典 对于输入的原始特征,计算基于字典的系数a作为降维后的表达分类器与降维S p a r s e C o d i n g 迭代优化分类器与降维 Sparse Coding 稀疏模型:f(x)=稀疏响应:a=f(x)Local coordinate cod
23、ing Hierarchical sparse coding Super-Vector Coding VQ coding分类器与降维S p a r s e C o d i n g分类器与降维 SVM分类器与降维S V M小结全局特征 局部特征Harris Fast DoG Hessian LoH MSER.输入图像特征滤波器分块输入图像特征点检测特征描述子Gabor LBP HOGGist CHOG.SIFT SURF DAISY BRIEF ORB BRISK.小结全局特征 局部特征H a r r i s F a s t D o G 小结特征抽取XY分类器特征降维小结特征抽取X Y 分类器特
展开阅读全文