第10章-多媒体信息检索课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第10章-多媒体信息检索课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 多媒体信息 检索 课件
- 资源描述:
-
1、第10章 多媒体信息检索第10章 多媒体信息检索10.1 基于内容的图像信息检索10.2 图像特征提取10.3 图像相似量度10.4 基于内容的视频信息检索10.5 基于内容的音频信息检索10.6 小结思考题第10章 多媒体信息检索随着网络带宽的增加,通过网络提供音频、视频服务成为可能。第十六次中国互联网络发展状况统计报告表明,最受欢迎的八大热门服务中,在线音乐占45.6%,在线影视占37.8%。可见,包含音视频等多媒体的信息服务已经成为互联网络上的热点。但是,如何在浩如烟海的网络中找到所需要的多媒体信息呢?前面的章节已经学习了文本检索的相关技术,在某种程度上,这些技术同样适用于多媒体信息检索
2、,但多媒体信息本身具有独特的性质,所以多媒体信息检索还需要特殊的处理技术。第10章 多媒体信息检索多媒体信息检索是根据用户的要求,对图像、文本、声音、视频等多媒体信息进行检索,得到用户所需的信息。本章将从网络图像、音频、视频等三方面展开多媒体信息检索技术的学习。多媒体信息检索主要分为两种:基于关键字的多媒体信息检索和基于内容的多媒体信息检索。前者通过对多媒体信息作文字标注或描述来建立索引,后者则通过提取多媒体信息的内容特征来建立索引。从网络上进行多媒体信息检索的流程示意图如图10-1所示。第10章 多媒体信息检索图10-1 网络多媒体信息检索流程示意图第10章 多媒体信息检索可见,多媒体信息检
3、索的流程类似于普通的信息检索流程,所不同的主要是解析和特征提取两个步骤。在解析时,不丢弃图像、音频、视频等信息,而是需要对它们进行一定的预处理,例如对图像来说,每个网页上的图像非常多,但大多数是网页的装饰图,并不是真正反映网页内容的图像。所以,应该把这些图像去掉,去掉的原则可以根据具体的情况制定,如像素值小于某个阈值,或者图像的长宽比例大于某个阈值的图像先被去掉,初筛后留下的图像才送去进行特征提取。第10章 多媒体信息检索采取文本标注的方式建立索引,一般需要人工进行,随着多媒体数据的飞速增长,人工标注变得越来越不现实,而且受到语言种类的限制。所以,基于内容的多媒体信息检索引起了极大的关注。本章
4、也将重点介绍基于内容的多媒体信息检索以及相关的特征提取技术。多媒体信息资源包括图形图像,音频和视频等信息,多媒体信息检索除了可以按照传统的关键字检索外,还可以按照多媒体资源中涵盖的内容来检索,如可以检索所有含有老虎的图像,虽然可能错误地检索出含有猫的图像,但比起传统的检索方法,已经有了本质的不同。本章重点介绍基于内容的多媒体信息检索,并且根据多媒体资源的表现形式,把它分为基于内容的图像检索、基于内容的视频检索、基于内容的音频检索三大类。第10章 多媒体信息检索10.1 基于内容的图像信息检索基于内容的图像信息检索可以说,几乎每一个Web页面上都有图像,这些图像有些是和页面主题相关的,而大部分是
5、一些Logo或广告图像。如何有效地检索出所需的网络图像是一个难题。传统的按照关键字的图像检索仍然起着重要的作用,如著名网站Google,它提供的图像检索基本是按照关键字进行的,Google 分析页面上图像附近的文字、图像标题以及许多其他元素来确定图像的内容,Google 还使用复杂的算法来删除重复的内容,并确保在搜索结果中首先显示质量最好的图像。目前,可通过Google检索到的图像超过3.9亿幅。这种检索方法的检索性能关键要看对内容的描述是否准确,相对于基于内容的图像检索来说,按照关键字检索图像准确率效果更好。第10章 多媒体信息检索但是按照关键字的检索具有如下缺点:(1)面对WWW上成千上万
6、幅的图像,对它们进行正确的文本索引,是非常困难的事情。(2)文本描述不可避免地带有主观性,不同的人从同一幅图像里读出的信息可能大相径庭。(3)一幅图像胜似千言万语,多少关键词才可能代表一幅图像呢?(4)依赖于文本描述所使用的语言种类。基于内容的图像检索(Content-Based Image Retrieval,CBIR)可以在一定程度克服上述缺陷。CBIR提取每幅图像的视觉内容(如色彩、纹理和形状等)作为其索引,用户选择具有代表性的一幅或多幅例子图像,依据图像视觉特征的相似度进行查询,然后由系统查找与例子图像在视觉内容上相似的图像,按相似度大小排列返回给用户,或者用户制定图像的主要视觉特征,
7、如红色,按照指定的颜色来检索。一般来说,基于内容的网络图像检索流程如图10-2所示。第10章 多媒体信息检索图10-2 基于内容的网络图像检索流程示意图第10章 多媒体信息检索首先将机器人下载回来的图像进行视觉特征分析,主要包括颜色、形状和纹理特征的提取,形成特征索引;用户检索时,通过提交例图或直接的特征查询,再通过同样的颜色、形状和纹理特征提取,形成特征向量;然后,将该特征向量和索引库中的特征向量进行相似度计算;最后输出超过阈值或者按相似度大小排列的图像。可见,基于内容的图像检索关键在于特征提取和相似度的计算,所以,这也是本章重点讲述的内容。目前国内外已有不少应用于实验环境的CBIR系统,其
8、中比较有名的有IBM公司开发的最早商业化QBIC系统,哥伦比亚大学研发的WebSEEK系统、麻省理工学院研发的Photobook系统。第10章 多媒体信息检索1 QBICQBIC1是基于图像内容查询的英文缩写(Query By Image Content)。QBIC系统是由国际商用机器公司IBM(International Business Machinery)Almaden研究中心研发的第一个商业化的基于内容的图像检索系统。该系统的框架和采用的技术对后来的图像检索系统产生了深刻的影响。QBIC系统支持基于范例图像的查询方式,也支持通过由用户构造的草图、轮廓和选定的色彩与纹理样式的查找方式,以
9、及其他一些查询方式。在QBIC的最新版系统中,基于文本的关键字查找方式与基于内容的相似性查找方式相结合,共同完成查找功能。第10章 多媒体信息检索2 VirageVirage2是由Virage有限公司开发的基于内容的图像检索引擎。同QBIC系统一样,它也支持基于色彩、色彩布局、纹理和结构特征(对象边缘)的视觉查询功能。但 Virage比QBIC在技术上向前迈了一步,Virage支持以上四种基本查询的任意组合的查询方式。用户还可以根据需要来调整一些基本图像特征的权重。Jeffery等人进一步提出了图像管理的开放式框架,他们将图像的视觉特征分为两类:一类是通用特征(如色彩、形状或纹理),一类是领域
10、相关的特征(如用于人脸识别、癌细胞检测的特征)。根据不同领域的具体需要,各种专用的基本特征就可以加入到这个开放式结构中来。第10章 多媒体信息检索3 PhotobookPhotobook3是美国麻省理工学院的多媒体实验室所开发的用于图像查询和浏览的交互式工具。它由三个子系统组成,分别负责提取形状、纹理、人脸特征。这样一来,用户就可以分别在这三个子系统中根据相应的特征来进行查找。然而,对于不同的领域,没有哪一种“最好”的特征能够完美地描述一幅图像,所以,在Photobook更新一些的版本FourEyes中,Picard等人提出了把用户加入到图像注释和检索过程中的想法。更进一步,由于人的感知是主观
11、的,他们又提出了“模型集合”来结合人的因素。实验表明,这种方法对于交互式图像注释来说非常有效。第10章 多媒体信息检索4 VisualSEEK和和WebSEEKVisualSEEK4是美国哥伦比亚大学电子工程系与电信研究中心图像和高级电视实验室共同研究的基于内容的搜索引擎,而WebSEEK是一种面向WWW的文本或图像搜索引擎,也都是由哥伦比亚大学开发的。这两个系统的主要技术特点是采用了图像区域之间空间关系和从压缩域中提取的视觉特征,包括颜色特征和基于小波变换的纹理特征。为了加快检索速度,系统采用基于二叉树的索引算法。VisualSEEK可同时支持基于视觉特征的查询和基于空间关系的查询。比如,用
12、户如果要查找一幅“日落”的图像,那用户的查询可以是一幅草图:草图的上半部分是桔红色的区域,下半部分是蓝绿色的区域。而WebSEEK是一个面向WWW的搜索引擎,它不仅支持基于关键字的查找,还支持基于视觉内容的查找。第10章 多媒体信息检索5 MARSMARS5是伊利诺斯大学Urbana-Champaign分校(UIUC)开发的多媒体分析和检索系统(Multimedia Analysis and Retrieval System)的英文缩写。MARS无论在研究角度还是应用领域都和其他的图像检索系统有很大的差异。这主要体现在MARS是一个多学科交叉融合的产物,包括计算机视觉、数据库管理系统以及传统的
13、信息检索技术。MARS在科研方面的主要特点包括数据库管理系统DBMS和信息检索技术IR的结合(如何进行分级的精确匹配),索引和检索技术的融合(即检索算法如何发挥底层索引结构的优点),以及计算机和人的融合(相关反馈技术)。MARS系统的重点并不在于找到所谓“最好”的图像特征,而在于根据实际的应用环境和用户需要在检索框架中动态地组合调整各种不同的图像特征。MARS在图像检索领域正式提出了相关反馈的体系结构。相关反馈的技术在各种层次上融合到检索的过程中,包括查询向量的优化、相似度算法的自动选择以及图像特征权重的调整。第10章 多媒体信息检索 10.2 图像特征提取图像特征提取10.2.1 颜色特征颜
14、色特征1 颜色模型颜色模型颜色、形状和纹理是图像中三种最重要的低层视觉特征,相比之下,其中的颜色特征提取方法又较为成熟。在基于内容的图像检索中,希望提取出来的特征具有尺度不变性、旋转不变性、平移不变性等优良特性,以使图像在发生了缩放、移动或旋转等变化后,不影响检索的效果,或影响很小。图像中的颜色具有鲜明的特点,颜色特征提取的方法很多,相对形状特征和纹理特征而言,颜色特征提取方法较为有效和成熟,在基于内容图像检索中颜色特征得到了广泛的应用。第10章 多媒体信息检索颜色特征的提取可以选择不同的颜色模型进行,其提取的效果也会截然不同,直接影响检索的效果。下面分别介绍几种常用的颜色模型6,针对不同的应
15、用,可选择合适的颜色模型。根据颜色模型的用途,常用的颜色模型可分为两类:一类是面向诸如彩色显示器或打印机之类的硬设备的颜色模型,如RGB模型、CMY模型等;另一类是面向视觉感知的颜色模型,这类模型更接近人的视觉感知,适合用来分析图像特征,如HSI模型、HSV模型、Lab模型等,本节重点介绍RGB模型和HSI模型。第10章 多媒体信息检索1)RGB模型RGB模型是面向硬设备的最常用的颜色模型,如图10-3所示。根据人眼结构,所有颜色都可看做是三个基本颜色红、绿、蓝的不同组合,用(R,G,B)表示,例如:(255,0,0)表示红色,(0,0,0)表示黑色。每种颜色分量的值在0,255区间变化。将R
16、GB模型建立在笛卡儿坐标系统里,其中3个轴分别为R、G、B,如图10-3所示。RGB模型的空间是个正方形,从黑到白的灰度值分布在从原点到离原点最远顶点间的连线上,而立方体内其余各点对应不同的颜色,可用从原点到该点的向量表示。有时为了计算方便,将立方体归一化为单位立方体,让所有的R、G、B的值都在区间0,1之中。第10章 多媒体信息检索图10-3 RGB色彩立方体第10章 多媒体信息检索面向硬设备的颜色模型与人类的视觉感知有一定距离,很难将一个颜色和一个(R,G,B)向量画上等号,换句话说,看到一种颜色,不太可能知道它对应的RGB分量值,或者反过来,看到一个RGB向量,不可能很快直觉到它的颜色。
17、所以,为了分析图像的颜色特征,一般不直接采用RGB模型,而是将它转换成其他与人的视觉感知接近的颜色模型。第10章 多媒体信息检索2)HSI模型HSI模型如图10-4所示,它是面向颜色处理的最常见的模型,其中H表示色调,S表示饱和度,I表示亮度,人区分颜色就常用这三种基本特征量。亮度与物体的反射率成正比,一般来说,如果一个图像无色彩,那么就只有亮度这一个分量。对彩色来说,颜色中渗入白色越多就越明亮,渗入黑色越多亮度就越小。色调是与混合光谱中主要光波长相联系的。饱和度与一定色调的纯度有关,纯光谱色是完全饱和的,随着白光的加入饱和度逐渐减少。色调和饱和度合起来又称为色度,所以颜色可用亮度和色度共同表
18、示。第10章 多媒体信息检索图10-4 HSI模型的坐标系统6第10章 多媒体信息检索从图10-4可见HSI模型的坐标系统接近圆柱坐标系统。对其中的任意一个色点P,其H值对应指向该点的向量与R轴的夹角。这个点的S值与指向该点的向量长度成正比,越长越饱和。在这个模型中,I的值与该点所在平面与最下对应黑色点的距离成正比。如果色点在I轴上,则其S值为零而H没有定义,这些点也称奇异点。奇异点的存在是HSI模型的一个缺点,而且在奇异点附近,R、G、B值的微小变化会引起H、S、I值的明显变化。RGB空间的彩色图像可以方便地转换到HSI空间。如果一帧图像的R、G、B分量都已经归一化到了0,1区间,则其对应的
19、HSI模型中的H、S、I分量可由下面的公式计算求得:第10章 多媒体信息检索(10-1)3 BGRI),min(),max(BGRBGRS(10-2)BGBGBRGRBRGRBGBGBRGRBRGRH,)()(2)()(arccos2,)()(2)()(arccos2121(10-3)由公式直接算出的H值在0,360之间,为使H落在0,1之间,可令H=H/360进行转换。当S=0时,H没有意义,此时可定义H为0;另外,当I=0或I=1时,讨论S也没有意义。第10章 多媒体信息检索2 颜色特征提取颜色特征提取颜色特征的表达方法有很多,常用的有直方图法、累加直方图法、局部累加直方图法等。本节重点介
20、绍这3种方法,并作简要的比较。1)颜色直方图颜色直方图是表示图像颜色统计特征的最直观的方法,就是在选定颜色模型的基础上,统计出每种分量在各个颜色级别的像素数占图像像素总数的比例,得到图像各种颜色分量的比例分布,即直方图。直方图可以用数学公式表示为(10-4)1,2,1,0,)(LkNnkHk第10章 多媒体信息检索式中:k代表颜色特征值的级别;L是颜色特征级别的总数;nk是图像中具有K级别颜色特征值的像素的个数;N是图像像素总数。图10-5(a)用三个级别构造了一帧图像,假设这三个级别的颜色的I分量分别为I1、I2和I3,例图中I分量为I1和I2的像素数均占总像素数的25%,I分量为I3的像素
21、数占总像素数的50%,所以得出的I分量直方图如图10-5(b)所示。上述的颜色直方图也称为统计直方图。图10-6是原图及它的缩放图、旋转图和位移图。图10-7是原图及其缩放图、旋转图和位移图的RGB分量和灰度直方图,其各分量的直方图是一样的,这是一个非常优美的特性。第10章 多媒体信息检索图10-5 直方图统计方法示例第10章 多媒体信息检索图10-6 原图及其缩放、旋转和位移图第10章 多媒体信息检索图10-7 原图及其缩放图、旋转图和位移图的RGB分量和灰度直方图第10章 多媒体信息检索一般来说,统计直方图具有如下一些优点:(1)缩放不变性。图像进行缩放,不引起颜色直方图变化。(2)旋转不
22、变性。图像进行旋转,不引起颜色直方图的变化。(3)位移不变性。图像进行移动,不引起颜色直方图的变化。(4)双峰特性。如果图像中的前景和背景分明,直方图出现明显的双峰特性。但是,颜色直方图也有一些缺点,不利于表征图像的内容本质,如:颜色直方图只是对颜色分量级别的像素点进行了统计,完全丢失了空间信息,由此造成两幅不同内容的图像,颜色直方图却可能相同,如图10-8所示。第10章 多媒体信息检索图10-8 两幅不同的图像具有相同的颜色直方图第10章 多媒体信息检索对图10-8所示的这种情况,如果单凭颜色直方图来辨识图像,就会跟实际情况发生很大的偏差。这时可采用分块计算直方图的方法,稍后介绍分块直方图。
23、另外,当图像中的颜色级别不能取遍所有级别时,统计直方图中会出现一些零值。这些零值的出现会对计算直方图的相交带来很大影响,从而使得算出的匹配值并不能正确地反映两图间的颜色差别。这个问题在一定程度上可通过加大图像特征取值的间隔(即量化间隔),减少特征取值数量来克服。但这种简单量化存在一个问题。以色调特征为例,对两个相近颜色,量化既可能将它们量化到同一个色调上,也可能将其量化到不同的两个色调上,即量化可能拉近它们的距离也可能拉大它们的距离。这种问题多出现在量化间隔的边界附近,由量化本身造成。另外一种解决方法是采用累积直方图(或累加直方图),累积直方图能大大减少原统计直方图中出现的零值数量,使两种颜色
24、在特征轴上的距离保持与它们之间的相似度成正比。第10章 多媒体信息检索2)累加直方图在选定颜色模型的基础上,统计每种颜色分量的像素数占图像像素总数的比例,并把前面i级颜色分量的比例累加起来,得到一个逐渐递增的直方图,这就是累加直方图,如图10-9所示。累加直方图用数学公式表示为(10-5)1,.,2,1,0,)(0LkNnkHkik式中:k表示特征的取值;L是特征可取值的个数;nk是图像中具有特征值为K的像素的个数;N是图像像素总数。第10章 多媒体信息检索图10-9 累加直方图的计算示例第10章 多媒体信息检索图10-9(b)是图10-9(a)的累加直方图,图中横轴表示按照从低到高的颜色分量
25、级别,不难理解,最后那个级别的值为100%。累加直方图比起一般直方图有它的优越性,基本解决了前面提到的“零值”问题。第10章 多媒体信息检索3)分块直方图为了克服统计直方图丢失空间信息带来的问题,将图像划分为不同的块,对每个块再计算直方图,这种方法叫做分块直方图。正如图10-8所示,因为统计直方图丢失了空间信号,两幅完全不同的图像,它们的统计直方图表示可能完全相同。为了克服这个问题,有人提出分块直方图的方法7-8。利用分块直方图进行检索时,首先把整幅图像进行划分,这样图像就由划分出的小块组成;然后对每小块图像计算统计直方图;最后,计算并累加不同图像对应小块的直方图距离,并据此进行图像的相似匹配
展开阅读全文