多媒体数据压缩课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多媒体数据压缩课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体 数据压缩 课件
- 资源描述:
-
1、本章提纲多媒体数据压缩的概念和分类常用的压缩编码方法音频压缩标准图像和视频压缩标准3.1 多媒体数据压缩的概念和分类多媒体数据压缩的重要性数据冗余的类型数据压缩技术的性能指标数据压缩方法的分类3.1.1 多媒体数据压缩的重要性多媒体数据压缩编码是信息产业的关键技术F多媒体技术最大的难题是海量数据存储F以及电视信息数字化之后的数据传输数据量是否等于信息量电视信号F512*512*8*3=6291456=6.3Mb/sF6.3*30fps=188Mb/sF188/8=23.5MB/sF650MB光盘/23.5=27.5s语音信号F正常人说话频率20Hz-4KHzF采样定律F采样精度8位F4KHz*
2、2*8=64Kb/s=8KB/sF与电视信号相比23.5MB/8KB=3000倍陆地卫星F陆地卫星(Land Sat-3)其水平和垂直分辨率分别为2340和3240,四波段,采样精度7位F2340*3240*4*7=212MbF按每天30幅计,每天数据量为212*30=6.36GbF每年的数据量高达2300Gb如此巨大的数据量给存储器的传输容量、通信干线的信道传输率以及计算机的运算速度都增加了极大的压力单纯用扩大存储容量、增加通信干线的信道传输率是不现实的数据压缩是行之有效的方法信息量和数据量的关系I=D-duI:信息量D:数据量du:冗余量3.1.2 数据冗余的类型冗余:信息存在的各种性质的
3、多余度。冗余例子F中文广播员一分钟180个汉字,一个汉字2个字节,共360字节F采样一分钟:8k*60*8/8=480kB/分钟F480kB/360B=1000倍冗余冗余例子F中文百科全书扫描进计算机F200万字*2=4MBFB5扫描(182*257mm 300dpi 12pixel/mm)185*257*12*12*8/8=6.84MB200万字以1000页计算,数据量6.84GBF图像、视频数据冗余量更大数据冗余的类型数据冗余的类型空间冗余时间冗余信息熵冗余视觉冗余听觉冗余结构冗余知识冗余1、空间冗余在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,在数字化图像中表现为冗余示例空
4、间冗余统计上认为其像素的信息存在冗余,这是冗余的一种。图像的冗余信息会产生生理视觉上的多余度,去掉这部分图像数据并不影响视觉上的图像质量,甚至对图像的细节也无多大影响,这说明数据具有可压缩性。可以在允许保真度的范围内压缩待存储的图像数据,以大大节省存储空间,同时在图像传输时也会大大减少信道的负荷。2、时间冗余它反映在图像序列中就是相邻帧图像之间有较大的相关性,一帧图像中的某物体或场景可以由其它帧图像中的物体或场景重构出来。示例空间冗余和时间冗余是把图像信号看作概率信号时所反映出的统计特性,因此,这两种冗余也被称为统计冗余。3、信息熵冗余信息量:从N个相等的可能事件中选出一个事件所需的信息度量和
5、含量信息熵:指一堆数据所带的信息量,平均信息量就是信息熵(entropy)例如:从64个数中选出某个数。F可先问是否大于32?从而消除半数的可能F这样只需6次即可选出某个数每提问一次得到1 bit信息量,在64个数中选中某数所需的信息量是log2 64=6 bit信息量:从N个相等的可能事件中选出一个事件所需的信息度量和含量信息量和事件出现的概率有关,概率越大,信息量越小;概率越小,信息量越大I(x)=IP(x)=loga(1/P(x)=-logaP(x)若a=2 则信息量度量单位为bit 若a=e 则信息量度量单位为nit 若a=10,则信息量度量单位为哈特莱如果将信源所有可能事件的信息量进
6、行平均,就得到了平均信息量。信息熵=平均信息量信息熵:指一堆数据所带的信息量,平均信息量就是信息熵(entropy)信息熵冗余无失真编码定理:F无失真编码极限=信源所含平均信息量(熵)F信源编码时,当分配给第i个码元类的比特数 b(yi)=-logpi,才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的先验概率很难预知,比特分配不能达到最佳。实际单位数据量dH(S),即存在信息冗余熵。4、视觉冗余人眼对于图像场的注意是非均匀的,人眼并不能察觉图像场的所有变化。事实上人类视觉的一般分辨能力为26灰度等级,而一般图像的量化采用的是28灰度等级,即存在着视觉冗余。5、听觉冗余人
7、耳对不同频率的声音的敏感性是不同的,并不能察觉所有频率的变化,对某些频率不必特别关注,因此存在听觉冗余6、结构冗余数字化图像中的物体表面纹理等结构往往存在着冗余,这种冗余称为结构冗余。当一幅图有很强的结构特性,纹理和影像色调等与物体表面结构有一定的规则时,其结构冗余很大。例如,草席的纹理很规范清晰,它的图像就存在结构冗余。7、知识冗余由图像的记录方式与人对图像的知识差异所产生的冗余称为知识冗余。人对许多图像的理解与某些基础知识有很大的相关性。例如F人脸的图像F建筑物中的门、窗的形状、位置等等F这类规律性的结构可由先验知识和背景知识得到。人具有这样的知识,但计算机存储图像时还得把一个个像素信息存
8、入,这就是知识冗余。3.1.3 数据压缩技术的性能指标评价压缩技术的三个指标评价压缩技术的三个指标l压缩比l恢复效果l压缩算法复杂度、速度另外也必须考虑每个压缩算法所需的硬件和软件。无损压缩 (图象质量不变)有损压缩3.1.4 数据压缩方法分类根据解码后数据与原始数据是否完全一致可以分为两大类:F无损压缩法:采用可逆编码方法实现的压缩称为无损压缩。这种方法的解码图像与原始图像严格相同,即压缩是完全可恢复的或没有偏差的。压缩比在2:15:1,又称冗余压缩法,熵编码法F有损压缩法;采用不可逆编码方法实现的压缩称为有损压缩。这种方法的还原图像较之原始图像存在一定的误差,但选择的压缩率应使视觉效果可被
9、接受。压缩比几十到几百。又称熵压缩法数据压缩方法分类数据压缩方法预测编码变换编码统计编码(熵编码)F哈夫曼编码F行程编码F算术编码其它:子带编码、运动估计1、预测编码(Prediction Coding)预测编码的基本原理F是统计冗余数据压缩理论的三个重要分支之一,用预测编码减少数据时间和空间的相关性如果有一个数,通过数学模型能够精确地产生数据源,则不需要传输这个数通过以往的样本值 ,预测 ,将预测值与实际值相减,对差进行编码预测编码的基本思想F建立一个数学模型,利用以往的样本数据,对新样本值进行预测,将预测值与实际值进行相减,对其差进行编码F差值很小,可以减少编码码位典型的预测编码方法FDP
10、CM(Differential Pulse Code Modulation):差分脉冲编码调制FADPCM(Adaptive DPCM):自适应的差分脉冲编码调制1、预测编码在多媒体通信的图像传输上使用预测编码是常用的方法,图像压缩中的“未来”是指下一个像素、下一条线或下一帧,一般景物在这三方面都有一定程度的冗余。同一帧图像内,相邻像素之间的相关性比较强,任何一像素均可以由与它相邻的且已被编码的点来进行预测估计。连续的若干帧中,“未来”的帧中也会有许多地方保留了“过去”的部分,如背景或静止的地方等。1、预测编码关键:建立一个理想的预测器(数学模型)如果能找到一个数学模型完全代表数据源,那么在接
11、收端就能依据这一数学模型精确地产生出数据。但是,现实中的系统是无法找到一个完整的、贴切的数学模型的。实际上能找到的最好的预测器只能以某种最小化的误差对下一个采样作预测。1、预测编码优点F可以去除数据的时间和空间冗余,直观、简捷和易于实现,特别是用于硬件实现。F在传输速度要求很高的应用中,大多选用此方法。缺点F预测方法的不足使压缩能力有限,DPCM一般只能压缩到2-4bit/像素。2、变换编码(Transformation Coding)其实质是一种函数变换,从一个信号域变换到另一个信号域,使其更适于压缩该过程是可逆的如将时域信号变换到频域,因为声音、图像大部分信号都是低频信号,在频域中信号的能
12、量较集中,再进行采样、编码就可以压缩数据。2、变换编码 变换本身是可逆的,因而其也是一种无损技术。然而,为了取得更满意的结果,某些重要系数的编码位数比其他的要多,某些系数干脆就被忽略了。这样,该过程就成为有损的了。数学家们已经构造了多种数学变换。除了傅里叶变换外,还有余弦、Hadamard、Haar、Karhunen-Loeve(K-L)变换。最实用最常用的数学变换是离散余弦变换(DCT)。3、统计编码(熵编码)原理:变字长编码定理F若各码字长度严格按照所对应符号出现概率的大小逆序排列,则其平均码长最小根据变字长编码定理,概率大的用短码字表达,反之用长码字表达。统计编码的目的是减少符号序列的冗
13、余度,提高符号的平均信息量。3、统计编码它根据符号序列的统计特性,寻找某种方法把符号序列变换为最短的码字序列,使各码元承载的平均信息量最大,同时保证无失真地恢复原来的符号序列。如数字序列:742300000000000000000055 编码为:7423Z18553、统计编码典型的熵编码方法F哈夫曼编码方法(利用信源概率分布特性)F行程编码方法(利用相关特性)F算术编码(利用概率分布特性)哈夫曼编码Huffman在1952年提出了对统计独立信源达到最小平均码长的编码方法,又称最佳码。从理论上可以证明,这种编码具有即时性和唯一可译性。Huffman编码的基本原理是按信源符号出现的概率大小进行排序
14、,出现概率大的分配短码,反之则分配长码。哈夫曼编码求信息熵F信源有4个符号Xa1a2a3a4概率1/21/41/81/8信息熵:H(x)=-1/2log2(1/2)-1/4log2(1/4)-1/8log2(1/8)*2 =1/2+1/2+3/4=1.75 bit/字符)(log)()(21iinixPxPxH哈夫曼编码编码步骤F信源符号按概率大小排列F出现概率最小的两个符号概率相加,合成一个概率F将合成概率看作一个新组合的符号概率,重复上述做法,直到最后只剩下两个符号概率为止F反过来逐步向前编码,每一步两个分支,各赋予一个 二进制代码对信源进行Huffman编码信源a1a2a3a4概率1/2
15、1/41/81/81/401011/2011码字010110111平均码长L=1/2*1+1/4*2+1/8*3+1/8*3=1.75 bit/字符=H(x)编码效率100%码长1233哈夫曼编码编码码字长度不均匀在信源符号概率不均匀时效率高;若信源符号概率均匀,则不用huffman编码行程编码(run-length coding)又称运行长度编码或游程编码,该压缩算法是将一个相同值的连续串用一个代表值和串长来代替。以图像编码为例,可以定义在特定方向上具有相同灰度值的相邻像素为一轮,其延续长度称为连续的行程,简称为行程。行程终点位置由到前一行终点的相对距离确定,这样就可以由灰度行程来表示图像数
16、据。例如,若沿水平方向有一串(M个)像素具有相同的灰度 N,则行程编码后,只传递两个值(N,M)就可以代替M个像素的M个灰度值N。行程编码分为定长行程编码和变长行程编码两种对传输差错很敏感F一位符号出错就会改变行程编码的长度,从而使整个图像出现偏移,因此一般要用行同步和列同步的方法把差错控制在一行一列之内。一组连续同值的若干像素可用两个值表示:像素的值和同值像素的个数。对于有许多相同颜色的图像区域,这种算法的压缩效果是很明显的。行程编码例如F有一串数码为000011111000,按上述的表示方法,则它的行程码为0453。F第一位表示该数码串的首码0;第二位表示有4个连续的0;第三位表示有5个连
17、续的1;第四位表示l以后是3个0。由于二进制数的码非0即 l,因此无须在04后再写 l。算术编码(arithmetic coding)算术编码方法不是将单个信源符号映射成一个码字,而是把信源符号表示为实数0到1之间的一个区间,其长度等于该消息的概率。消息序列中的每个元素都要用来缩短这个区间。消息序列中元素越多,所得到的区间就越小,就需要更多的数位来表示这个区间。再在该区间内选择一个代表性的小数,转化为二进制作为实际的编码输出。原理算术编码算术编码的特点F不需要码表F当信源符号概率比较接近时,算术编码效率高于哈夫曼方法F实现方法复杂,尤其是硬件实现F JPEG成员对多幅图像的测试结果表明,算术编
18、码比哈夫曼编码能提高5左右的效率。在JEPG的扩展系统中,用算术编码方法取代了哈夫曼方法。3.3 音频压缩标准音频压缩编码的基本方法电话质量的语音压缩标准调幅广播质量的压缩标准高保真立体声压缩标准3.3.1 音频压缩编码的基本方法3.3.2 电话质量的语音压缩标准ITU建议的用于电话质量的语音压缩标准 标准标准说说 明明G.711采用PCM编码,采样速率为8KHz,量化位数为8bit,对应的比特流速率为64Kbps。使用了非线性量化技术。G.721将64Kbps的比特流转换成32Kbps的流,基于ADPCM编码;每个数值差分用4位编码,采样率为8KHz。G.723一种以24Kbps运行的基于A
19、DPCM的有损压缩标准。G.728采用LDCELP压缩技术;比特率为16Kbps,带宽限于3.4KHz;音质与32Kbps的G.721标准相当。3.3.3 调幅广播质量的压缩标准调幅广播质量音频信号的频率范围是50Hz7KHz,又称“7KHz音频信号”,当使用16KHz的采样频率和14bit的量化位数时,信号速率为224Kbps。1988年ITU制定了G.722标准,它可把信号速率压缩成64Kbps。3.3.4 高保真立体声音频压缩标准 高保真立体声音频信号的频率范围50Hz20KHz,在44.1KHz采样频率下用16bit量化,信号速率为每声道705Kbps。目前国际上比较成熟的高保真立体声
20、音频压缩标准为“MPEG音频”。MPEG是动态图像编码的国际标准,“MPEG音频”是该标准中的一部分。3.4 图像和视频压缩标准静止图像压缩标准JPEG运动图像压缩标准MPEG系列FMPEG-1,MPEG-2,MPEG-4,MPEG-7,MPEG-21视频通信编码标准H.261、H.263运动静止图像专家组的M-JPEG其它:Real-Networks的RealVideo、微软公司的WMT以及Apple公司的QuickTime等3.4.1 静止图像压缩标准JPEG1986年ISO和CCITT成立联合图片专家组(Joint Photographic Experts Group)1992.1 提出
展开阅读全文