第5章-视频编码方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第5章-视频编码方法课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 视频 编码 方法 课件
- 资源描述:
-
1、1 1第5章视频编码方法5.1 视频编码基础5.2 基于块的变换编码5.3 预测编码5.4 基于内容的编码5.5 可分级视频编码5.6 本章小结2 25.1 视频编码基础视频编码基础5.1.1 编码概述编码概述1.编码系统编码系统视频编码算法的组成在很大程度上是由视频序列建模所采用的信源模型确定的。视频编码器寻求用它的信源模型描述视频序列的内容。信源模型可做出图像序列的像素之间在时间和空间上相关性的假设,也可考虑物体的形状和运动或照度的影响。图5-1中,给出了一个视频编码系统的基本组成。3 3图 5-1 视频编码系统的基本组成4 4在视频编码器中,首先用信源模型的参数描述数字化的视频序列。如果
2、使用像素统计独立的信源模型,那么这种信源模型的参数就是每个像素的亮度和色度的幅度。另一方面,如果使用把一个场景描述成几个物体的模型,那么参数就是各个物体的形状、纹理和运动等。然后,信源模型参数被量化成有限的符号集。量化参数取决于比特率与失真之间所期望的折中。最后,用无损编码技术把量化参数映射成二进制码字,这种技术进一步利用了量化参数的统计特性。解码器反向进行编码器的二进制编码和量化过程,重新得到信源模型的量化参数,然后,解码器的图像合成算法用信源模型的量化参数计算解码的视频帧。5 52.视频编码方案分类视频编码方案分类按照是否需要对视频图像的内容进行分析,可将视频编码技术分为基于波形的视频编码
3、和基于内容的视频编码,前者允许对任意视频信号进行有效编码而不需要分析视频内容,后者需要识别视频序列中的区域和物体并对它们进行编码。1)基于波形的编码该技术试图尽可能准确地表示各个像素的颜色值,而不考虑一组像素可以表示一个物理物体这一事实。该技术建立的信源模型、编码参数以及使用的编码技术如表5-1所示。6 67 7把像素假设为统计上独立的,这样得到的模型是最简单的信源模型(如表5-1所示)。相关的编码技术就称为脉冲编码调制(Pulse Coded Modulation,PCM)。图像信号的PCM表示通常不用于视频编码,因为与其他信源模型相比,它的效率较低。在大多数图像中,邻近像素的颜色相关性很高
4、。为了减少比特率,可以通过变换来利用这种性质,如Karhunen-Loveve变换(KL)、离散余弦变换(DCT)或小波变换。变换旨在去除原样点值间的相关性,并把原始信号的能量集中到几个系数上。利用相邻样点间相关性的另一种方法是预测编码,这种方法是先由前面编码的采样点预测要编码的样点值,然后对预测误差进行量化和编码,预测误差与原始信号相比具有较小的相关性和较低的能量。变换编码和预测编码都可看作是矢量量化的一种特殊情况,矢量量化一次量化一个采样点块(一个矢量)。从本质上说,它寻找出现在信号中的典型块模式,并用典型模式之一来近似任何一个块。8 8如今的视频编码标准H.261、H.263、H.264
5、、MPEG-1、MPEG-2和MPEG-4都采用基于块的混合编码方法,综合了预测编码和变换编码。这种编码技术把每幅图像分成固定大小的块。第k帧的每个块用前面第k1帧的一个已知位移位置处的相同尺寸的块合成得到,这样产生的图像称为预测图像。编码器把所有块的二维运动矢量传送到解码器,以便解码器能够计算同样的预测图像。编码器从原始图像中减去这幅预测图像,得到的就是预测误差图像。如果用预测图像合成的一个块不够准确也就是说,如果块的预测误差超出某个阈值,那么编码器就用变换编码把这个块的预测误差传送到解码器。解码器把预测误差与预测图像相加,从而合成解码图像。因此,基于块的混合编码是基于平衡的运动块信源模型的
6、。除了颜色信息编码为预测误差的变换系数外,还必须传输运动矢量。值得注意的是,这种编码可切换到较简单的像素统计相关的信源模型。每当编码不涉及前面一帧就能更有效地完成块的编码时就进行这种切换。9 92)基于内容的编码基于块的混合编码技术实际上是用固定大小的方块来近似场景中物体的形状。因此在目标边界上的块中会产生高预测误差。这些边界块包含具有不同运动的两种物体,因此用一个运动矢量不能说明两个不同的运动。基于内容的编码器认识到这样的问题,它把视频帧分成对应于不同物体的区域,并分别编码。对于每个物体,除了运动和纹理信息外,还必须传输形状信息。10 10在基于物体的分析与合成编码中,通过物体模型描述视频场
7、景的每个运动物体。为了描述物体的形状,分析与合成编码采用分割算法。此外,还估计每个物体的运动和纹理参数。在最简单情况下,用二维轮廓描述物体形状,运动矢量场描述它的运动,用颜色波形描述它的纹理,其他方法用三维线框描述物体。用第k1帧中物体的形状、颜色以及形状和运动的更新参数来描述第k帧中的物体。解码器用当前运动和形状参数以及前一帧的颜色参数合成物体。只对那些图像合成失败的图像区域,才传输颜色信息。11 11在视频序列中的物体种类已知的情况下,可采用基于知识的编码,这种编码使用特别设计的模型来描述已识别出的物体类型。例如,目前已经提出了一些用预定义的模型来对人头编码的方法。使用预定义模型可增加编码
8、效率,因为它自适应于物体的形状。有时,也把这种技术称为基于模型的编码。当已知可能的物体类型和它们的行为时,可以用语义编码。例如,对于一个人脸,“行为”指的是与特殊面部表情相关的一系列面部特征点的时间轨迹。人脸的可能行为包括典型面部表情,诸如高兴、悲伤、生气等。在这种情况下,估计描述物体行为的参数并传输给解码器。这种编码方法可以达到非常高的编码效率,因为物体(如脸)可能的行为数目非常小,所以说明行为所需的比特数比用传统的运动和颜色参数描述实际动作所需的比特数少得多。12 125.1.2 信源编码的评价指标信源编码的评价指标1.图像熵图像熵(Entropy)设数字图像像素灰度级集合为(W1,W2,
9、Wk,WM),其对应的概率分别为P1,P2,Pk,PM。按信息论中信源信息熵定义,数字图像的熵H为(5-1)21log(bit)MkkkHPP 由此可见,一幅图像的熵就是这幅图像的平均信息量,也是表示图像中各个灰度级比特数的统计平均值。式(5-1)所表示的熵值是在假定图像信源无记忆(即图像的各个灰度级不相关)的前提下获得的,这样的熵值常称为无记忆信源熵值,记为H0()。对于有记忆信源,假如某一像素灰度级与前一像素灰度级相关,那么公式(5-1)中的概率要换成条件概率P(Wi/Wi1)和联合概率P(Wi,Wi1),则图像信息熵公式变为13 13(5-2)11111(/)(,)lb(/)MMiiii
10、iikkH W WP W WP W W 式中,P(Wi,Wi1)=P(Wi)P(Wi/Wi1),则称H(Wi/Wi1)为条件熵。因为只与前面一个符号相关,故称为一阶熵H1()。如果与前面两个符号相关,求得的熵值就称为二阶熵H2()。依此类推,可以得到三阶和四阶等高阶熵,并且可以证明H0()H1()H2()H3()(5-3)香农信息论已证明:信源熵是进行无失真编码的理论极限。低于此极限的无失真编码方法是不存在的,这是熵编码的理论基础。而且可以证明,如果考虑像素间的相关性,使用高阶熵一定可以获得更高的压缩比。14 142.性能评价性能评价评价一种数据压缩技术的性能优劣主要有三个关键的指标:压缩比、
11、重现质量、压缩和解压缩的速度。除此之外,主要考虑压缩算法所需要的软件和硬件环境。1)压缩比压缩性能常常用压缩比来定义,也就是压缩过程中输入数据量和输出数据量之比。压缩比越大,说明数据压缩的程度越高。在实际应用中,压缩比可以定义为比特流中每个样点所需要的比特数。对于图像信息,压缩比可使用公式(5-4)计算:(5-4)sCLCLLs为原图像的平均码长,LC为压缩后图像的平均码长。15 15其中,平均码长L的计算公式为1(bit)miiiLP(5-5)其中,i为数字图像第i个码字的长度(二进制代数的位数),其相应出现的概率为Pi。除压缩比之外,编码效率和冗余度也是衡量信源特性以及编解码设备性能的重要
12、指标,定义如下:编码效率:(5-6)HL其中,H为信息熵,计算公式如(5-1)所示,L为平均码长。冗余度:=1(5-7)16 16由信源编码理论可知,当LH时,可以设计出某种无失真编码方法。如果所设计出编码的L远大于H,则表示这种编码方法所占用的比特数太多,编码效率很低。例如,在图像信号数字化过程中,采用PCM对每个样本进行的编码,其平均码长L就远大于图像的熵H。因此,编码后的平均码长L等于或很接近H的编码方法就是最佳编码方案。此时并未造成信息的丢失,而且所占的比特数最少,例如熵编码。当LH时,必然会造成一定信息的丢失,从而引起图像失真,这就是限失真条件下的编码方案。17 172)重现质量重现
13、质量是指比较重现时的图像信号与原始图像之间有多少失真,这与压缩的类型有关。压缩方法可以分为无损压缩和有损压缩。无损压缩是指压缩和解压缩过程中没有损失原始图像的信息,所以对无损系统不必担心重现质量。有损压缩虽然可获得较大的压缩比,但压缩比过高,还原后的图像质量就可能降低。图像质量的评价常采用客观评价和主观评价两种方法。图像的主观评价采用5分制,其分值在15分情况下的主观评价如表5-2所示。18 1819 19而客观评价通常有以下几种:(1)均方误差:21()()niEx ix in(5-8)(2)信噪比:(5-9)22(dB)10lgxrSNR(3)峰值信噪比:(5-10)2max2(dB)10
14、lgrxPSNR20203)压缩和解压缩的速度压缩与解压缩的速度是两项单独的性能度量。在有些应用中,压缩与解压缩都需要实时进行,这称为对称压缩,如电视会议的图像传输;在有些应用中,压缩可以用非实时压缩,而只要解压缩是实时的,这种压缩称为非对称压缩,如多媒体CD-ROM的节目制作。从目前开发的压缩技术看,一般压缩的计算量要比解压缩要大。在静止图像中,压缩速度没有解压缩速度要求严格。但对于动态视频的压缩与解压缩,速度问题是至关重要的。动态视频为保证帧间变化的连贯要求,必须有较高的帧速。对于大多数情况来说,动态视频至少为15帧/s,而全动态视频则要求有25帧/s或30帧/s。因此,压缩和解压缩速度的
15、快慢直接影响实时图像通信的完成。21 21此外,还要考虑软件和硬件的开销。有些数据的压缩和解压缩可以在标准的PC硬件上用软件实现,有些则因为算法太复杂或者质量要求太高而必须采用专门的硬件。这就需要在占用PC上的计算资源或者另外使用专门硬件的问题上做出选择。22225.1.3 二进制编码二进制编码二进制编码是用二进制比特序列(称为码字)表示有限字母表信源中每个可能符号的过程。所有可能符号的码字形成码书。一个符号可以对应一个或几个原始的或量化后的像素值或模型参数。因为从符号到码字的映射是一一对应的,因此这个过程也称为无损编码。对于一个有用的码,它应该满足以下属性:(1)它应该可惟一解码,这就意味着
16、在码字和符号之间有一对一映射的关系;(2)码应该是即时可解码的,这意味着如果一组比特与码字相匹配,那么可立即解码这组比特,而不需检查编码序列中的后继比特。这第二个属性要求任何码字的前缀都不是另一个有效的码字,这种码称为前缀码。尽管即时可解码性是比唯一性更强的要求,而且允许快速解码,但它不限制编码效率。可以证明,对于同一信源,在所有唯一可解码的码中前缀编码可产生最小比特率。所有实际编码方法都产生前缀码。2323很明显,最简单的二进制码是所有可能符号的固定长度的二进制表示。如果符号数是L,那么比特率就是比特/符号。由上一节知道,任何码书的最低可能比特率是信源的熵率。除非信源是均匀分布的,否则固定长
17、度编码方案效率将是很低的,因为比特率比熵率高得多。为了降低比特率,需要可变长编码(VLC),它分配一个较短的码字给一个较高概率的符号,所以平均比特率低。因为适当设计的可变长编码器的比特率可接近信源的熵,所以可变长编码也称为熵编码。2log L2424有三种流行的可变长编码方法。哈夫曼(Huffman)编码把固定数目的符号转成可变长的码字;LZW方法把可变数目的符号转成固定长度的码字;而算术编码把可变数目的符号转成可变长度的码字。哈夫曼和算术编码是基于概率模型的,且都可逐渐地达到熵界限。算术编码方法更容易达到渐进性能,且容易适应信号统计特性的变化,但它比哈夫曼编码更复杂。LZW方法不要求了解信号
18、的统计特性,因此是普遍适用的,但它比其他两种方法的效率低。哈夫曼和算术编码已经用于各种视频编码标准中。以下将重点介绍这两种编码方法。25251.哈夫曼编码哈夫曼编码哈夫曼编码是由哈夫曼(D.S.Huffman)于1952年提出的一种不等长编码方法,这种编码的码字长度的排列与符号的概率大小的排列是严格逆序的,理论上已经证明其平均码长最短,因此被称为最佳码。1)编码步骤(1)将信源符号的概率由大到小排列;(2)将两个最小的概率组合相加,得到新概率;(3)对未相加的概率及新概率重复(2),直到概率达到1.0;(4)对每对组合概率小的指定为1,概率大的指定为0(或相反);(5)记下由概率1.0处到每个
19、信源符号的路径,对每个信源符号都写出1、0序列,得到非等长的Huffman码。下面以一个具体的例子来说明其编码方法,如图5-2所示。2626图 5-2 哈夫曼(Huffman)编码的示例2727表5-3列出了各个信源符号的概率、哈夫曼编码及码长。28282)前例哈夫曼编码的编码效率计算根据式(5-1)求出前例信息熵为 71lb(0.2lb0.20.19lb0.190.18lb0.180.17lb0.17 0.15lb0.150.10lb0.100.01lb0.01)2.61iikHPP 根据式(5-5)求出平均码字长度为712 0.20.19 20.18 30.17 30.15 30.10 4
20、0.01 42.72iikLP 2929根据式(5-6)求出编码效率为2.6195.9%2.72HL可见,哈夫曼编码效率很高。3)哈夫曼编码实例使用哈夫曼编码算法对实际图像进行编码,使用的图像为Couple和lena,这两幅图像均为256级灰度图像,大小为256256像素,图像如图5-3所示。编码结果如表5-4所示,限于篇幅,给出了部分结果。3030图 5-3 图像Couple和lena31 313232从表中可以看出,Couple图像的色调比较暗,因此低灰度值像素较多,低灰度值像素点概率比Lena图像相同灰度值像素的大,因此,哈夫曼编码也相对短一些。而整个哈夫曼编码的长度严格地和概率成反比。
21、表5-5给出了对Couple和lena两幅图像哈夫曼编码后的性能指标计算。33333434从表中可以看出,哈夫曼的编码效率还是很高的,但由于哈夫曼编码是无损的编码方法,所以压缩比不高。从表中还发现Couple图像的压缩比较大,但是编码效率却较小,这主要是由于该幅图像的信息熵较小,其冗余度较高造成的。35354)哈夫曼编码的特点(1)编码不唯一,但其编码效率是唯一的。由于在编码过程中,分配码字时对0、1的分配的原则可不同,而且当出现相同概率时,排序不固定,因此哈夫曼编码不唯一。但对于同一信源而言,其平均码长不会因为上述原因改变,因此编码效率是唯一的。(2)编码效率高,但是硬件实现复杂,抗误码力较
22、差。哈夫曼编码是一种变长码,因此硬件实现复杂,并且在存储、传输过程中,一旦出现误码,易引起误码的连续传播。3636(3)编码效率与信源符号概率分布相关。由于编码效率与信源符号概率分布相关,编码前必须有信源的先验知识,这往往限制了哈夫曼编码的应用。当信源各符号出现的概率相等时,此时信源具有最大熵Hmax=lbn,编码为定长码,其编码效率最低。当信源各符号出现的概率为2n(n为正整数)时,哈夫曼编码效率最高,可达100%。由此可知,只有当信源各符号出现的概率很不均匀时,哈夫曼编码的编码效果才显著。(4)只能用近似的整数位来表示单个符号。哈夫曼编码只能用近似的整数位来表示单个符号而不是理想的小数,因
23、此无法达到最理想的压缩效果。37372.算术编码算术编码在信源概率分布比较均匀的情况下,哈夫曼编码的效率较低,而此时算术编码的编码效率要高于哈夫曼编码,同时又无需像变换编码那样,要求对数据进行分块,因此在JPEG扩展系统中以算术编码代替哈夫曼编码。算术编码也是一种熵编码。当信源为二元平稳马尔可夫源时,可以将被编码的信息表示成实数轴01之间的一个间隔,这样,如果一个信息的符号越长,编码表示它的间隔就越小,同时表示这一间隔所需的二进制位数也就越多。下面对此作具体分析。38381)码区间的分割设在传输任何信息之前信息的完整范围是0,1,算术编码在初始化阶段预置一个大概率p和一个小概率q,p+q=1。
24、如果信源所发出的连续符号组成序列为Sn,那么其中每个Sn对应一个信源状态,对于二进制数据序列Sn,可以用C(S)来表示其算术编码,可以认为它是一个二进制小数。随着符号串中“0”、“1”的出现,所对应的码区间也发生相应的变化。如果信源发出的符号序列的概率模型为m阶马尔可夫链,那么表明某个符号的出现只与前m个符号有关,因此其所对应的区间为C(S),C(S)L(S),其中L(S)代表子区间的宽度,C(S)是该半开子区间中的最小数,而算术编码的过程实际上就是根据符号出现的概率进行区间分割的过程,如图5-4所示的码区间的分割。3939图 5-4 码区间的分割40402)算术编码规则在进行编码的过程中,随
25、着信息的不断出现,子区间按下列规律减小:新子区间的左端=前子区间的左端+当前子区间的左端前子区间长度 新子区间长度=前子区间长度当前子区间长度下面以一个具体的例子来说明算术编码的编码过程。例:已知信源分布,如果要传输的数据序列为1011,写出算术编码过程。43 411 0解 (1)已知小概率事件q=1/4,大概率事件为431qp41 41(2)设C为子区间左端起点,L为子区间的长度。根据题意,符号“0”的子区间为0,1/4),因此C=0,L=1/4;符号“1”的子区间为1/4,1),因此C=1/4,L=3/4。4242子区间左端起点为850.01010101256bdC子区间长度为270.00
展开阅读全文