多媒体技术应用基础第3章课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多媒体技术应用基础第3章课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体技术 应用 基础 课件
- 资源描述:
-
1、第3章 多媒体的数据压缩技术3.1 概述概述3.2 数据压缩的基本方法数据压缩的基本方法3.3 JPEG彩色静止图像编码标准彩色静止图像编码标准3.4 MPEG运动图像编码标准运动图像编码标准3.5 音频的数字化与压缩编码技术音频的数字化与压缩编码技术第第 3 章多媒体的数据压缩技术章多媒体的数据压缩技术返回主目录返回主目录第3章 多媒体的数据压缩技术第第3章章 多媒体数据压缩技术多媒体数据压缩技术3.1 概述概述 多媒体是先进的计算机技术和视频、音频及通信等技术集成的产物。多媒体计算机涉及的信息包括:文字、语音、音乐、静止图像、电视图像、电影、动画、图形等等。这些信息经数字化处理后的数据量非
2、常大,那么如何在多媒体系统中有效地保存和传送这些数据就成了多媒体计算机面临的一个最基本的问题,也是最大的难题之一。以彩色电视信号为例,设Y、I、Q色空间各分量均被数字化为8 bit,它的数据量约为100 Mbit/s,用现在1GB容量的CD-ROM光盘,也仅能保存约1分钟的原始电视数据。第3章 多媒体的数据压缩技术 此外,彩色静止图像、文件图像以及语音等等的数据量也是非常巨大的,特别是电视图像的数据量,在相同条件下要比语音的数据量大1 000倍以上。况且,现在个人电脑的传输率一般是150 Mbit/s,无法处理更大的数据量。因此,要把这些视频、音频等信号在有限的空间上存储和在目前的电脑总线上正
3、确传输,必须采取数据压缩技术。可见,数据压缩技术是多媒体计算机(MPC)发展的关键性技术。第3章 多媒体的数据压缩技术 3.1.1 数据冗余数据冗余 在实际中,我们需要的是各种信号数据携带的信息,而数据中存在许多与有用信息无关的数据,这就是所谓数据冗余。如果能够有效地去除这些冗余,就可以达到压缩数据的目的。解决数据压缩技术的核心问题就是利用最少的时间和最小的空间,传输和保存多媒体的数据。数据冗余一般有6种。1.空间冗余空间冗余 空间冗余在图像数据中经常存在。例如,图像中的某个区域的颜色是相同的,相邻像素的颜色信息相同,则该区像素这个颜色相关性的光成像结果在数字化图像中就表现为数据冗余。第3章
4、多媒体的数据压缩技术 2.时间冗余时间冗余 时间冗余在序列图像(电视图像、运动图像)和语音数据中经常存在。如当一景物是静止或运动较慢时,相邻两帧图像基本相同,即后一幅图像中的背景及物体与前一幅的有很强的时间相关性。再有,人说话时发音的频率是一个连续和渐变的过程,时间上不是完全独立的。这些都反映为时间冗余。空间、时间冗余是我们将图像信号看作概率信号所反映出的统计特性,也被称为统计冗余。第3章 多媒体的数据压缩技术 3.信息熵冗余信息熵冗余(编码冗余编码冗余)信息熵指一组数据所携带的信息量。在实际应用中,我们数据编码的码元长按概率对应的数据量往往大于信息熵,这就是信息熵冗余,或称为编码冗余。4.结
5、构冗余结构冗余 图像存在结构上的一致,如草席、网格图像,反映为结构冗余。5.知识冗余知识冗余 许多图像的理解与某些知识有很大的相关性。如人脸的图像有固定的结构,我们已知它的结构规律,此类即是知识冗余。第3章 多媒体的数据压缩技术 6.视觉冗余视觉冗余 人的视觉系统并不是对于图像场的任何变化都能查觉的,如对色差信号的变化不敏感。这样在数据压缩和量化过程中引入了噪声,使图像发生变化,只要这个变化值不超过视觉的可见阈值,就认为是足够好。此类冗余就是视觉冗余。第3章 多媒体的数据压缩技术 3.1.2 量化的基本概念量化的基本概念 一般图像、声音的特征信息都可直接由一些模拟信号来表示。而要通过计算机进行
6、处理,就必须转化为计算机所能接受的数字信号,即进行模拟量到数字量的转换,即A/D转换。这个数字化的过程就叫量化过程。量化过程可再细分为采样与量化处理两个步骤。采样的结果就是确定使用多少个像素点来表示一幅图像,它决定了图像的分辨率。要想得到高分辨率,就需对图像更多的点进行采样处理。量化处理是预先设置一组判决电平和一组重建电平,每个判决电平将覆盖一定的空间,所有判决电平要覆盖整个有效取值区间。第3章 多媒体的数据压缩技术 量化时将模拟量的采样值同这些电平比较,落在某个判决电平区间上,就取这个量化级的代表值作为它的重建电平或叫作码字。量化一般可分为 3 类:标量量化(零记忆或一维量化)、向量量化(分
7、组量化)和序列量化。标量量化是一维量化,所有采样使用同一个量化器进行量化,每个采样的量化都与其它所有采样无关。现在市场上的A/D转换器件中所使用的PCM编码器,是最典型的一维量化的实例。所谓向量量化,就是从称为码本(Codebook)的码字集合中选出最适配于输入序列的一个码字,来近似一个采样序列即一个向量的过程。这种方法以输入序列与选出码字之间失真最小为依据,显然比标量量化的数据压缩能力要强。可见,量化的过程实际上也是数据压缩的编码过程。第3章 多媒体的数据压缩技术 向量量化不仅可作为单独的一种编码方法,还可与其它编码方法构成混合方法使用。它经常与变换编码相结合,对信息源进行变换后,按一定的方
8、式形成多维向量组,然后再到码本中寻找最佳码字。量化器的好坏对于化量误差有直接影响。若要使量化的数据在其动态范围内的概率密度服从均匀分布,则量化级别可等间隔分配。但事实上属于这种情况的并不多,有些数据的概率密度服从高斯分布,有些像预测编码的误差数据服从拉普拉斯分布。因而,为使整体的量化失真最小,就需依照统计和概率分布来设计最优的量化器,它一般是非线性的。已知的最优量化器是Max量化器。第3章 多媒体的数据压缩技术 除量化器的量化区间划分为非线性之外,还可对于各区间的代表值(码字的长短)作非等步长的处理,使概率密度大的区间的码字用较少的比特数表示,反之码字取较多的比特数。目前,量化器主要有以下 3
9、 类:一是均匀量化器,其量化间隔是等长的;二是非均匀量化器,其量化间隔是不等长的;三是自适应量化器,其量化间隔随传送数据的特点而变化。对于分布概率模型未知的随机过程,优化量化器的设计较为困难。虽然Lloyd提出了LloydMax 算法来解决此问题,但从硬件实现角度来说仍是较复杂的。第3章 多媒体的数据压缩技术 3.1.3 数据压缩方法的一般分类数据压缩方法的一般分类 数据压缩处理一般由编码和解码两个过程组成。编码过程就是将原始数据经过某种变换编码的压缩过程;解码过程是对编码数据进行解压缩,可认为是一种反变换,使之还原成可使用数据的过程。根据解码后的数据与原始数据是否一致,数据压缩方法可划分为两
10、类:(1)可逆编码。其压缩是完全可恢复的或没有偏差的,解码图像与原始图像严格相同,故也称无损编码。(2)不可逆编码方法。其还原图像较之原始图像存在一定误差,但视觉效果可以接受。根据压缩方法的原理,可将其划分为以下 7 种:第3章 多媒体的数据压缩技术 (1)预测编码。这是一种针对统计冗余进行压缩的方法。对于空间冗余来说,它表现在一幅画面内相邻像素点之间的相关性较强,因而任一像素点均可由与它相邻的且已被编码的点来进行预测。预测是根据某一模型进行的。若模型选择得好,则只需存储或传输起始像素点和模型参数就可代替整个一帧图像了。有时也需要传输预测的误差。时间冗余的预测方法与其相似,只是针对的是帧间图像
11、。(2)变换编码。这也是一种针对统计冗余进行压缩的方法。它将图像光强矩阵(时域信号)变换到系数空间(频域)上进行处理。在空间上具有强相关性的信号,反映在频域上是某些特定区域内能量被集中在一起,或是系数矩阵的分布具有某些规律。因此我们可利用这些规律分配频域上的量化比特数,从而达到压缩数据的目的。第3章 多媒体的数据压缩技术 因为正交变换的变换矩阵是可逆的,且可逆矩阵与转置矩阵相等,这使得解码运算(反变换)一定有解且运算方便。所以,变换编码总是选用正交变换。(3)量化与向量量化编码。我们已经知道,量化过程就是将连续的模拟量通过采样,离散化为数字量的过程。对像素进行量化时,可以一次量化多个点,这种方
12、法就是向量量化。例如,可以每次量化相邻的两个点,这样就可将这两点用一个量化码字表示,达到数据压缩的目的。其数据压缩能力与预测编码方法相近,本质上也是针对统计冗余的压缩。(4)信息熵编码。信息熵编码就是利用信息的相关性压缩冗余度。它根据信息熵原理,对出现概率大的用短的码字表示,反之用较长的码字表示,目的是减少符号序列的冗余度,提高码字符号的平均信息量。最常见的方法有哈夫曼编码、行程编码和算术编码。第3章 多媒体的数据压缩技术 (5)分频带编码。就是将图像数据变换到频域后,按频率分段,之后用不同的量化器进行量化,从而达到最优的组合。或者采用分步渐近编码。开始时,对某一频带的信号进行解码,逐渐扩展到
13、所有的频带。随着解码数据的增加,解码图像也就逐渐清晰。这种方法对于远地图像模糊查询与检索的应用比较有效。(6)结构编码。编码时首先将图像中的边界轮廓、纹理等结构特征求出,然后保存这些参数信息。解码时根据结构和参数信息进行合成,恢复出原图像。(7)基于知识的编码。对于像人脸等可用规则描述的图像,可利用人们已知的知识形成一个规则库,据此将人脸等的变化用一些参数进行描述。这些参数和模型一起就可实现图像的编码和解码。第3章 多媒体的数据压缩技术 3.1.4 数据压缩系统的构成数据压缩系统的构成 一般数据压缩系统的构成如图3-1所示。其中,信息源编码器的构成如图3-2所示。从数据压缩系统组成框图中,可很
14、清楚地看出多媒体信息源的数据压缩和解码流程。从中可看出,解码实际是编码的逆过程。对于不同的应用要求,其中的信息源编码器(解码器)及内部码编码器(解码器)的具体形式会不相同,它由信源数据性质所决定的有效数据压缩方法来定。下一节,我们将对应用广泛的几个基本的数据压缩方法作详细的介绍。第3章 多媒体的数据压缩技术图 3 1 数据压缩系统组成 信息源编码器内部码编码器通信线路或存储媒体内部码解码器信息源解码器原始数据复原数据第3章 多媒体的数据压缩技术图 3 2 信息源编码器的构成信息抽取量化码元分配第3章 多媒体的数据压缩技术3.2 数据压缩的基本方法数据压缩的基本方法 3.2.1 预测编码预测编码
15、 预测编码是减少时间冗余和空间冗余(即统计冗余)的主要方法,对于时间序列数据有广泛的应用。预测编码的特点是直观、简捷、易于实现,容易设计成实时性的硬件结构。对于传输速度要求高的应用系统,经常会用到这种方法。预测编码的原理简单地说就是:存储以前的样本值(像素、帧),根据选取的适当模型来预测未来的样本值,对这两个样本值相减得到的误差进行编码。显然,这种方法可以得到较大的数据压缩结果。预测编码可分为帧内预测编码和帧间预测编码。第3章 多媒体的数据压缩技术 1.帧内预测编码帧内预测编码 用得最多的是差分脉冲编码调制,即DPCM法。DPCM法编码的基本原理如下所述。通过画面上坐标(m,n)的像素点的 3
16、 个相邻(或更多)点(m-1,n)、(m-1,n-1)、(m,n-1)的数值,预测(m,n)像素点的数值。若记(m,n)点的信息数值(如亮度)为Ymn,预测值用 表示,则预测公式采用下式可得到预测值:公式中的a1、a2、a3为预测参数,可以通过使误差emn=Ymn-的数学期望为零、均方误差最小或通过最小二乘法得到。Y1,31,12,11nmnmnmmnYaYaYaY第3章 多媒体的数据压缩技术 对误差emn进行量化、编码,显然要比对原来图像的像素进行编码的比特数小得多。解码时,只要用emn数据修改预测的像素点信息,就可得到当前像素点的信息值。在量化过程中会引起信息损失,使图像失真。但只要选择合
17、理的量化步长,使量化误差不超过人眼的可见阈值,图像质量就可以达到主观保真度要求。这种方法在有些情况下效果不好。当画面上相邻点发生全范围变化,比如,边界处由白变为黑。这时DPCM系统会过载,即系统要用许多点才能输出全黑。这是因为,每个差值像点只表示幅值的一小部分,这种现象称为斜率过载,会产生图像边缘的模糊效应。自适应DPCM编码将会有效减轻这种现象。第3章 多媒体的数据压缩技术 所谓自适应DPCM编码(ADPCM),就是在DPCM的基础上,根据图像的局部特征对量化步长及预测参数进行自适应调整,即定期地重新计算协方差矩阵和相应的加权因子,充分利用其统计特性及变化,重新调整预测参数,以得到较为理想的
18、输出。2.帧间预测编码帧间预测编码 序列图像(运动图像)帧间有很强的时间相关性。像电视图像,每秒钟传送30帧画面(保证画面流畅),相邻帧的时间间隔只有1/30 s,大多数像素的亮度信号在帧间的变化是不大的。帧间编码技术处理的对象就是这些序列图像。随着大规模集成电路的迅速发展,已有可能把几帧图像存储起来作实时处理。这样利用帧间编码技术就可减少帧序列内图像信号的冗余度。第3章 多媒体的数据压缩技术 1)条件补充法 其原理是,如果帧间各对应像素的亮度差超过阈值,则把这些像素存储在缓冲存储器中,并以恒定的传输速度传送;对阈值以下的像素不传送,而以上一帧相应像素值代替。因此,一幅电视图像可能只需传送其中
19、一部分像素,并且传送的只是它们的帧间差值,所以可得到较好的压缩比。据统计,在可视电话中,用条件补充法需传送的像素只占总数的6%左右。2)运动补偿法 使用这种方法可以提高编码压缩比,尤其对于运动部分只占整个画面较小部分的会议电视和可视电话,压缩比可以提高很多。第3章 多媒体的数据压缩技术 因此它是标准化视频编码方案MPEG中的主要技术之一运动补偿技术的关键是,计算图像中运动部分位移的两个分量(运动向量),跟踪画面内的运动情况,对其加以补偿后再进行帧间预测。(1)块匹配算法。如图3-3所示,块匹配算法把图像分成若干子块图像。设子块是MN块。若当前帧图像亮度信号为fK(m,n),前一次传送的图像的亮
20、度信号是fK-NS(m,n),这里NS为帧差数目。一般NS可能是1、3或7。假定当前帧中的MN子块是从第K-NS帧中平行移动而来的,则MN子块内所有像素都具有同一个位移值(i,j)。设运动物体在NS帧差时间内,水平和垂直最大位移均为L,这样我们可在第K-NS帧搜索区SR内进行搜索,SR区为(M+2L,N+2L)。第3章 多媒体的数据压缩技术图 3-3 块匹配位移量估计算法 子块MNf(m,n)子块f(m,n)-L-LLL第K帧(当前帧)第K-NS帧第3章 多媒体的数据压缩技术 计算子块位移值时,可以计算两帧中子块的相关函数NCCF(i,j),当NCCF(i,j)达到最小值时的(i,j)就确定为
21、子块的位移值。实际应用中常用下面两式确定子块匹配:SRjijnimfnmfjiNCCFMmNnNkKS),(,),(),(min),(211SRjijnimfnmfjiNCCFMmNnNkKS),(,),(),(min),(11 这样,当前帧的MN子块的任意位置(m,n)上的像素,完全可用第K-NS帧位置上的像素来预测,效果是很不错的。但有时使用块匹配算法后,图像容易产生“方块效应”,需要另外加预处理或后处理技术来消除。第3章 多媒体的数据压缩技术 3.2.2 正交变换编码正交变换编码 正交变换编码可以解决预测编码压缩能力有限的问题。在数字信号处理中,把时序信号Y(t)通过傅立叶变换或Z变换等
22、变换到频域上,可以很方便地得到信号的频率、能量等固有特征。数据压缩也可以利用正交变换后的频谱能量与频率分布的特殊规律来进行数据编码。只要对频域空间量化器进行合理(非均匀)比特分配,即对高能量区给以较多的比特数,低能量区给以较少的比特数,就可以得到较高的压缩比。在诸多可进行变换的坐标轴中,变换编码将寻求最优的坐标系。一般变换编码运算要比预测等其它方法的计算复杂性要高。第3章 多媒体的数据压缩技术 理论上可以证明,变换方法中最优的正交变换是著名的K-L变换。但是K-L变换尽管是最小失真正交变换,却不实用。目前,它只能作为一种方法,用来对一些新方法及其结果进行分析比较,并没有真正应用到编码系统中而具
23、有较优的变换效果和通用性,与K-L变换很接近的正交变换DCT(离散余弦变换)和DSTC(离散正弦变换)应用很广泛。下面介绍DCT变换。研究表明,DCT的编码压缩能力仅次于KLT(K-L变换),所以又称DCT为次最优正交变换。DCT与KLT的基向量较为相近,又可以利用FFT(快速傅立叶变换)、代数分解以及矩阵分解算法快速求解,所以DCT是一种具有实用价值的正交变换。应用DCT编码时,我们要利用一些条件来降低编码的数据率。第3章 多媒体的数据压缩技术 1.方差准则方差准则 根据最优变换定理,量优正交变换KLT的基向量i,i=1,2,N,是数据向量X的协方差矩阵Y的特征向量。变换后频域上的能量主要集
24、中在这些特征向量中的较大特征值上。因此我们在编码时,可以选择具有M个最大特征值的yi个子集,而舍弃其余子集,这不会引入太大的误差。由于特征值是协方差矩阵Y的主对角线上的项,它们相应于变换分量yi,i=1,2,N的方差,所以我们把选择M个最大方差的分量子集进行编码,舍弃其余的(N-M)个分量,这种方法称为方差准则。用方差准则具体实行时,要先画出方差分布图,然后考察曲线下的面积,找出包含90%以上面积的分量数,确定为数据压缩应保留的分量。第3章 多媒体的数据压缩技术 计算结果表明,对数据压缩有意义的几乎所有的信号能量(即曲线下的面积),都集中在约45个DCT的分量之内,因此可考虑选其中最大的DCT
25、对角线项的43个分量来编码,其余分量全部置零。这43个分量均为直流和低频分量。用方差准则编码有个明显缺陷,就是高频分量的完全丢失,表现在恢复图像上是轮廓及细节模糊。解决的方法之一是阈值控制编码,即对那些高频幅值大于阈值的变换系数也进行编码输出,其余的补零。这样,在多数低频成分仍被编码输出的同时,少数超过阈值的高频成分也被编码输出,在一定程度上弥补了上面所说的缺点。2.数据块的分块考虑数据块的分块考虑 设图像的数据矩阵尺寸为MM,最简单的分块就是整块(MM),这样DCT和IDCT(逆离散余弦变换)都可以一次操作。第3章 多媒体的数据压缩技术 但这至少需要两方面的支持:一是足够大的存储容量;二是允
展开阅读全文