《模式识别原理与应用》课件第14章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第14章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件 14
- 资源描述:
-
1、第14章视频识别第第14章视章视 频频 识识 别别14.1视频结构分析视频结构分析14.2主持人识别主持人识别14.3标题条识别标题条识别习题习题第14章视频识别14.1视频结构分析视频结构分析14.1.1视频结构模型视频结构模型视频包括电影、电视节目、录像等,它是存储动态信息和进行信息通信的媒体。视频数据可用幕(Act)、场景(Scene)、镜头(Shot)、帧(Frame)等描述。视频结构化分析就是将连续视频流分割成包括场景、镜头、帧等视频单元。帧是一幅静态的图像,是组成视频的最小视觉单位。视频数据流是由连续的帧构成的。每一帧都可以看成独立的图像。帧是视频流的基本单元,它蕴含了少许的语义内
2、容。第14章视频识别镜头由一系列的帧组成,它描绘摄像机拍下的一组连续帧序列,是视频数据流进一步结构化的基础结构层。一般来讲,同一个镜头中,视频帧的图像特征保持稳定。比如,在拍摄“日落”这个镜头时,画面的色彩和纹理等图像特征将基本保持不变。镜头是对视频流进行处理的最小物理单元。由于在同一个镜头内的视频帧之间的特征保持稳定,如果相邻视频帧之间的特征发生了明显变化,则认为发生了镜头切换,就可以对视频流进行切分。对视频流进行结构化时,首先要找出每个独立的镜头单元。一个个独立的镜头单元就构成了视频流。第14章视频识别代表帧是可以用来表示镜头内容的图像。在切分出镜头后,代表帧被用来表示各镜头的特征,从而进
3、行进一步的结构化。一般地,在一组视频镜头中,代表帧数目远远小于镜头所包含的视频帧数量。第14章视频识别语义上相关和时间上相邻的若干个镜头组成了一个场景。场景是视频所蕴含的高层抽象概念和语义的表达。比如,“网球比赛”这个场景可以由“运动员特写”、“记分牌”、“观众助威”和“运动员比赛”等若干个镜头组成。虽然每个镜头所代表的语义不多,但是若干个镜头所组合成的场景就表达了一个符合人们思维的比较丰富的语义。由于不同人对同一场景的文字标注可能是不一样的,因此,一般使用代表帧(本质上是视觉信息)来表示镜头和场景,而不使用文字信息来标注场景。镜头由代表帧表示,所以场景可以使用属于这个场景的若干个镜头所对应的
4、代表帧来表示。第14章视频识别视频结构化模型如图14-1所示。视频数据流进行结构化的过程如下:(1)一组连续的视频帧通过镜头边界检测被分割成长短不一的镜头单元。(2)对每个镜头单元提取代表帧,得到可以表征这些镜头单元的代表帧。由于每个镜头长短不一,代表帧选取方法不同,因此提取的代表帧数目也不一样。(3)分析镜头代表帧,提取视觉特征,建立视频索引结构。第14章视频识别图 14-1视频结构化模型 第14章视频识别需要注意的是,虽然视频数据流中存在“镜头”或者“场景”等结构,但是对于不同的人而言,所划分的视频结构却很不同,这样就给视频结构化算法的评价带来困难。比如,对于新闻类视频,它存在着明显的视频
5、结构;对于体育比赛类的视频,如足球比赛、篮球比赛等,它的视频结构也比较明显,而对于电影、艺术类节目等视频,它们的结构就比较复杂,往往难以确切地进行结构划分。第14章视频识别14.1.2非压缩域镜头边界检测方法非压缩域镜头边界检测方法任何视频都是由一个个镜头衔接起来的,镜头是视频检索的基本单元。镜头之间的衔接方式是多种多样的。两个镜头之间的衔接称之为镜头切换,它表示从一个镜头到另一个镜头的衔接和转换,是通过镜头编辑做出来的。为了让镜头的衔接更加紧密、美观,视频中往往采用了许多镜头编辑方法,经过对镜头边界的编辑处理,将镜头和镜头完美地连接起来。镜头切换主要分为突变和渐变两种方式。第14章视频识别突
6、变(Cut)是指镜头与镜头之间没有过渡,由一个镜头的结束瞬间直接转换到另一个镜头的开始瞬间的方法。一个镜头猛然切换到另一个镜头,也叫直接切换。直接切换可使画面的情节和动作发生直接的跳跃,不存在时间上的差异,给人以轻快、利索的感觉。第14章视频识别渐变是指一个镜头到另一个镜头的逐渐过渡,没有明显的镜头跳跃。渐变包括淡入(Fade in)、淡出(Fade out)、溶化(Dissolve)、擦出(Wipe)等。将后面镜头的画面逐渐加强的方式称为淡入;将前面镜头的画面逐渐关闭直至消失的方式称为淡出;将前面镜头画面消失的同时后面镜头画面逐渐出现的方式称为溶化;将前面镜头从画面的某一部分开始逐渐地被后面
7、镜头画面取而代之的方式称为擦出。在视频编辑的过程中,镜头的渐变过程都是由特技发生器产生出来的。图14-2是镜头边界编辑和产生的示意图。第14章视频识别图 14-2镜头边界编辑和产生的示意图第14章视频识别镜头边界检测是对视频流进行后续分析和识别的基础。目前,镜头边界检测的方法有很多种,主要有像素差值法、颜色直方图法、边缘差值法、运动矢量法、压缩域方法等,这些方法的名字来源于每种方法所提取的视觉特征。本节介绍几种经典的镜头边界检测方法,这几种方法的基本思想是,比较相邻视频帧之间的视觉特征是否发生了较大变化,如果发生了较大变化,则意味着视频发生了镜头突变,发生较大特征变化的地方就是镜头边缘。对于渐
8、变切换,特征变化虽然存在,但却不明显。另外,由于镜头是渐变的,相邻两帧的特征值也是逐渐地改变,因此,需要采用一定的方法突现这种变化。第14章视频识别1.单一阈值比较法单一阈值比较法单一阈值比较法是最早的突变镜头检测方法。它主要考虑视频中相邻两帧的直方图间的差异,当前后两帧的直方图差异超过某一阈值时,就认为此处是镜头突变点。用于比较直方图差异的算法很多,主要有欧几里德距离法、直方图交集检测法和矢量间的夹角余弦等。假设对于视频中的相邻两帧图像fi、fj,其归一化直方图分别为Hi、Hj,直方图共包含 n 种颜色。两帧图像的直方图距离为 第14章视频识别nkijijikHkHkHHHD12)()()(
9、),(14-1)直方图交集表示为 nkjijikHkHHHsim1)(),(min(),(14-2),(1),(jijiHHsimHHD(14-3)第14章视频识别其中,Hi(k)、Hj(k)分别为归一化直方图Hi、Hj在第k个颜色上的取值。如果前后两帧的颜色分布基本相同,那么式(14-1)的距离值几乎等于0,而式(14-2)的相似性测度为1,式(14-3)的不相似性测度为0。如果前后两帧的颜色分布完全不同,则结果正好相反。第14章视频识别在进行镜头边界检测时,顺序计算视频流相邻两帧的直方图差异,当D(Hi,Hj)大于某个预先设定的阈值时,说明两帧间发生了较大的变化,即认为它们之间存在一个镜头
10、突变切换。通常,可以把这个全局的阈值设定为视频流中所有相邻帧直方图差值平均值的5至6倍,当某相邻两帧的直方图差值大于这个阈值时,就可判断视频在这两帧之间发生了突变,这两帧之间是一个镜头切换点。第14章视频识别图14-3中的虚线是计算得出的某段视频直方图差值的平均值,点画线是5倍的差值平均值。可见,a、b两点的直方图差值均大于这个阈值。显然,a点和b点分别是两个镜头分割点,整个视频片段可以分为A、B、C三个镜头,视频片段的镜头分割便完成了。第14章视频识别图 14-3某视频片段相邻帧间直方图差值图第14章视频识别单一阈值比较法能较好地检测出视频中明显的镜头突变。然而对于渐变过程和色彩差别较小的突
11、变镜头,直方图差值虽然有变化,但并不明显。如果仍采用单一阈值比较方法,就识别不出镜头的切换点,或者使识别出的镜头切换点有误。第14章视频识别2.双重比较法(双重比较法(twin comparison)为了找到渐变切换在直方图差值图中的规律,考察图14-4所示的渐变切换的例子。观察图14-4,可以看出帧图像变化的规律:从第0帧起,画面中有一白色几何体自左向右逐渐消退,而新画面(椰树)则随之逐渐完整显现。当此组图片作为视频播放时,就表现出翻页切换的效果。第14章视频识别图 14-4镜头渐变切换镜头扫换连续帧图像 第14章视频识别图14-5(a)是此组图像的直方图差值图。直接从帧间直方图差值图中无法
12、找出如突变镜头般确定的镜头切换点。在渐变过程中,由于渐变起始帧的画面不断地被其随后镜头的画面所替代,因而随后出现的帧图像与渐变起始帧图像的差值会越来越大。因此,如果确定了渐变起始帧的位置,就可以计算出相对于起始帧的直方图累积差值图。第14章视频识别图 14-5根据图14-4计算出的直方图差值图(a)帧间直方图差值图;(b)直方图累积差值图第14章视频识别假设s为选定的渐变起始帧号,则对于其随后的帧i=s+1,s+2,计算相对于s帧的直方图累积差值Di:njsiijHjHsiDD1,(i=s+1,s+2,)(14-4)其中,n为直方图的颜色数目。图14-5(b)是根据式(14-4)计算得出的相对
13、于第0帧的直方图累积差值图。累积差值曲线呈单调递增,到翻页切换结束位置(大约在第35帧)处递增结束。此后各帧由于属于同一个镜头,因此相对第0帧的差值不再有太大波动。第14章视频识别所谓双重比较法,是在选定一个较高阈值的基础上,再引入一个较低的阈值作为对可能存在的渐变切换作双重比较的算法。首先用较低的阈值来确定出渐变切换过程可能的起始帧。一旦确定了这个起始帧,就用它与后续的帧进行比较,用累积的差值来取代相邻帧间的差值。这个累积是单调的,应该不断地加大,直到这个单调过程中止。这时,将累积差值与较高阈值相比较,如果超过了这个阈值,就可以认为这个累积值单调递增的序列对应的就是一个渐变切换过程。双重比较
14、法示意图如图14-6所示。第14章视频识别图14-6 双重比较法示意图第14章视频识别双重比较法存在的问题是,它不能较好地判定出渐变序列的终点。因为在差值累积的过程中,即使渐变切换过程已经结束,积累的差值可能还会增大,只是此时图像已处于下一个镜头之内,增大的幅度将不会如切换过程中那么大。如此导致的结果,就是错过实际的渐变切换终点而造成误判。第14章视频识别3.滑动窗口检测算法滑动窗口检测算法单一阈值算法选取某一全局性的参数作为判定阈值,这对于整个画面变化平缓的视频来说具有较好的检测效果。但是对那些画面变化较为剧烈的视频片段而言,此算法存在明显的不足。因此,应对直方图差值的局部变化进行分析。第1
15、4章视频识别图14-7是滑动窗口检测算法示意图。此算法定义一个合适大小的窗口,此窗口沿着帧间差值图的横坐标方向移动,在窗口内部对直方图差值进行计算,找出区域性的极大值点,然后将其与窗口内第二大差值相比较,当极大值与第二大差值差别达到某一系数时,即判定此极大值点为镜头切换点。第14章视频识别图 14-7滑动窗口检测算法示意图第14章视频识别该算法可以用以下语言来描述:(1)定义一个大小为2m1的窗口,使待检测的帧位于窗口的正中位置。(2)根据下式计算第i帧与第i+1帧的差异:njiiijHjHiiDD111,(14-5)其中:Hi是第i帧直方图;n为直方图的颜色数目。第14章视频识别(3)如果同
16、时满足以下条件,则认为第l帧是镜头切换位置:DlDj,j=lm+1,l1,l+1,l+m1;DlbDk,Dk为窗口中第二大的差值,b为给定的系数。滑动窗口检测算法充分利用了镜头切换位置附近的局部信息,计算简便。它认为在镜头切换位置附近的一个局部区域内,镜头切换点处的帧间差值要远远大于镜头内部的帧间差值,这也是镜头边界检测的基本思想。从实验效果看,滑动窗口检测算法的检测效果比单一阈值方法有相当大的提高。图14-8是采用滑动窗口检测方法对一段广告视频进行镜头检测的结果。第14章视频识别图14-8滑动窗口检测方法分析结果第14章视频识别4.闪光检测闪光检测视频中常有突然的闪光出现,闪光持续时间很短,
17、亮度很大,但是场景却由于时间短暂而变化很小。在帧间差值图中闪光表现为两个相邻很近、高度相当的突起,而在两峰之间和两峰的旁边,差异很小。按照一般的检测算法,闪光出现时和结束时都会被认为是镜头突变。但是无论是从突变的定义来看,还是从视频内容上来看,把闪光位置认为是突变是不合理的。因此,有必要检测闪光的位置,把它从镜头切换中除去。第14章视频识别图14-9是视频电影的故事中的一段帧间差值图。A和B是两个典型的闪光位置。由图可见,A与B的形状非常类似,两处均是相邻很近的双峰值,而且双峰值均比5倍的差值平均线大很多。第14章视频识别图 14-9视频片段电影的故事中的两个闪光位置第14章视频识别图14-1
18、0所示为闪光位置B处相邻帧图像及其直方图。这组镜头描述的是男女主人公在街道上照相的情景。为了表现出较强的艺术效果,镜头在第251帧处加入了极高亮度的一帧,目的是为了表现照相机闪光灯点亮的瞬间。观察第251帧前后邻近的帧可以看出,虽然此组图像被第251帧的闪光打断,但是仍然属于同一个镜头。如果按照全局单一阈值算法进行判断,由于帧间差值均高于5倍的差值平均线,因此它们将全部被判定为镜头突变点。显然,这是不符合实际的。应用其他检测算法也会出现类似的情况。第14章视频识别图 14-10闪光位置B处相邻帧图像及其直方图第14章视频识别闪光因为有上述明显的特征,所以可以得出以下检测依据:局部最大值同局部第
19、二大值很接近,并且两者都比其他的值大许多。图14-11是闪光检测算法示意图。闪光检测是镜头检测算法中必须考虑的,它对镜头检测的准确率影响较。第14章视频识别图 14-11 闪光检测算法示意图第14章视频识别14.1.3镜头的表示镜头的表示将视频分割为镜头以后,就需要采用某种方法来表示这些镜头的内容。传统的方法是采用文字索引来代表镜头。显然这种方法需要人工的干预,这不但增加了建立视频数据库的工作量,而且由于用来描述一个镜头的文字因人而异,因此用文字来代表镜头内容存在一定的片面性。基于内容的镜头表示方法采用从镜头本身提取的视频特征(如图像、声音等)作为镜头的属性。一旦确定了合适的算法,这种表示方法
20、可以由计算机自动完成,而且由于特征取自镜头本身,因此具有较强的代表性。第14章视频识别基于内容的镜头表示方法可分为两类:静止的和运动的。静止的表示方法是用与镜头内容相关的某几幅图像来代表镜头内容,这些图像被称作代表帧。运动的表示方法利用了视频中的运动特性,主要包括摄像机操作和目标运动等。第14章视频识别代表帧,又称作关键帧,是用于描述一个镜头的关键图像,它反映了镜头的主要内容。用代表帧来代表镜头有几个原因。首先,在视频数据库生成时,需要对代表帧按照静态图像的方法进行处理,并提取代表帧的特征作为镜头的索引。其次,在查询过程中,代表帧是视频查询返回的基本单元。第14章视频识别例如,当查询“主色调为
21、红色的镜头”时,可能会得到一组镜头,并由一组代表帧来表示。如果要看视频镜头本身,则只要在查询系统中点击相应的代表帧图像即可。另外,从镜头中提取代表帧的算法一般较为简单,且用代表帧表示镜头内容较为直观,符合人们的逻辑思维过程。因此代表帧成为镜头最主要的表示形式。第14章视频识别在拍摄视频时,根据剧情需要,一个镜头可以采用多种摄像机运动方式进行处理,这样就得到具有不同运动状态的镜头。摄像机的操作主要有摇镜头、推拉摄影、跟踪摄影等。摇镜头(panning),指摄像机的位置不变,在拍摄过程中仅靠镜头移动,它是转动“眼球”或“脖子”观看对象方式的再现;推拉(zooming),指从远处开始,逐渐推近到拍摄
22、对象(称为“推”),或从近处开始,逐渐地拍成全景(称为“拉”);跟踪(tracking),指镜头跟踪着被拍摄对象移动,形成追踪的效果。第14章视频识别在进行视频检索时,可以通过查询镜头的摄像机运动方式来检索出所需要的视频片断,如查询“包含摄像机跟踪对象的镜头”。第14章视频识别镜头内主体目标的运动是非常重要的信息。目标运动可以用运动方向和运动幅度来描述。事实上,许多目标的运动也与摄像机操作有关。通过对视频的研究发现,当目标运动时,在视频上表现为背景在迅速地变化,运动目标实际上相对镜头没有太大的运动,而是摄像机在操作,这样就可以利用摄像机操作的特征进行检索。除此之外,也存在一些镜头,摄像机本身不
23、动,而目标物体在镜头内部运动。第14章视频识别14.1.4代表帧的选取方法代表帧的选取方法代表帧是从原始的视频中提取的一些静止图像,它们可以概括地表示各个镜头的内容。一方面,代表帧集合可以支持对整个视频内容的快速浏览;另一方面,通过提取每个代表帧的视觉特征并建立索引,可以实现对视频内容的检索。代表帧的选取方法有多种。提取代表帧不仅要注意能够接近全面地反映镜头的内容,同时还要考虑到计算过程的复杂性。选取的代表帧应该能够提供给用户一个镜头内的场景运动以及表示出镜头内容的含义。第14章视频识别通常在一个镜头中,各帧对镜头内容的表达力并不是相同的。在进行代表帧选取时总希望选择那些最具内容表达概括力的帧
24、。最简单的方式就是选用镜头的任何一帧作为代表帧,如镜头的起始帧、时间中点帧或者镜头的结束帧作为该镜头的代表帧。这种方法运算量最小,可以获得最少数目的代表帧,非常适合于内容活动性小或基本不变的镜头。第14章视频识别1.平均法平均法平均法是指通过对整个镜头的计算,将具有一定平均意义的视频帧作为镜头代表帧。通常,平均法分为帧平均值法和直方图平均法。(1)帧平均值法:即取一个镜头中所有帧的某个目标位置上的像素值的平均值,将镜头中该位置的像素值最接近平均值的帧作为代表帧。该方法的难点在于对目标位置的选定。由于镜头中任意两相邻帧之间的差异体现的位置并不是固定的,这样就降低了帧平均法选取代表帧的正确性。第1
25、4章视频识别(2)直方图平均法:即将镜头中所有帧的统计直方图取平均,选择与该平均直方图最接近的帧作为代表帧。由于视频中的帧已经由三维的视频流退化成了二维的图像,因此可以选择图像处理中常用的低级视觉特征,例如颜色、纹理、形状等,作为帧图像的特征进行统计平均。而在诸多的可视特征中,选择颜色特征是较直接而有效的。第14章视频识别这是因为,一方面,并非所有的镜头都有显著的纹理、形状等其他可视特征;另一方面,虽然几何线索是识别对象最可靠的依据,但是在视频信息中有意义的对象或场景常常反复交错出现。颜色特征实际上是最为有效的手段,两个包含不同对象或背景的镜头一般来说颜色不会非常相似。各种颜色特征中最常用的是
展开阅读全文