《多媒体通信技术》课件--第3章 数字图像压缩技术.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《多媒体通信技术》课件--第3章 数字图像压缩技术.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体通信技术 多媒体通信技术课件_第3章 数字图像压缩技术 多媒体 通信 技术 课件 _ 数字图像 压缩
- 资源描述:
-
1、第3章 数字图像压缩技术 3.1 图像信号概述 3.2 图像信号数字化 3.3 数字图像压缩的必要性和可行性 3.4 图像压缩算法的分类及性能评价3.5 信息熵编码 3.6 预测编码 3.7 变换编码3.8 压缩编码新技术 3.9 图像压缩编码标准3.10 视频压缩编码标准3.1.1 图像的分类图像的分类 图像就是用各种观测系统以不同形式和手段观测客观世界而获得的,可以直接或间接作用于人眼而产生视知觉的实体。科学研究和统计表明,人类从外界获得的信息约有75%来自于视觉系统,也就是说,人类的大部分信息都是从图像中获得的。图像是人们体验到的最重要、最丰富、信息量获取最大的信息。图像能够以各种各样的
2、形式出现,例如,可视的和不可视的,抽象的和实际的,适于计算机处理的和不适于计算机处理的。就其本质来说,可以将图像分为两大类:模拟图像和数字图像。传统的方式为模拟方式,例如,目前我们在电视上所见到的图像就是以一种模拟电信号的形式来记录,并依靠模拟调幅的手段在空间传播的。在生物医学研究中,人们在显微镜下看到的图像也是一幅光学模拟图像,照片、用线条画的图、绘画也都是模拟图像。模拟图像的处理速度快,但精度和灵活性差,不易查找和判断。将模拟图像信号经A/D变换后就得到数字图像信号,数字图像信号便于进行各种处理,例如最常见的压缩编码处理就是在此基础上完成的。本书介绍的图像信息处理技术就是针对数字图像信号的
3、。与模拟图像相比,数字图像具有精度高、处理方便、重复性好等显著优点。图像信号还可以按照其它规则分类。图像信号按其内容变化与时间的关系分类,主要包括静态图像和动态图像两种。静态图像的信息密度随空间分布,且相对时间为常量;动态图像也称时变图像,其空间密度特性是随时间而变化的。人们经常用静态图像的一个时间序列来表示一个动态图像。图像信号按其亮度等级的不同可分为二值图像和灰度图像;按其色调的不同可分为黑白图像和彩色图像;按其所占空间的维数不同可分为平面的二维图像和立体的三维图像等等。3.1.2 彩色的形成彩色的形成 在自然界中,当阳光照射到不同的景物上时,所呈现的色彩不同,这是因为不同的景物在太阳光的
4、照射下,反射(或透射)了可见光谱中的不同成分而吸收了其余部分,从而引起人眼的不同彩色视觉。例如,当一张纸受到阳光照射后,如果主要反射蓝光谱成分,而吸收白光中的其他光谱成分,这样,当反射的蓝光射入到人眼时,则引起蓝光视觉效果,因此人们说这是一张蓝纸。可见,彩色是与物体相关联的,但是彩色并不只是物体本身的属性,也不只是光本身的属性,所以同一物体在不同光源照射下所呈现的彩色效果不同。例如当绿光照射到蓝纸上时,这时的纸将呈现黑色。可见彩色的感知过程包括了光照、物体的反射和人眼的机能三方面的因素。它是一个心理物理学的概念,既包含主观成分(人眼的视觉功能),又包含客观的成分(物体属性与照明条件的综合效果)
5、。从视觉的角度描述彩色会用到亮度、色度和饱和度三个术语。亮度表示光的强弱;色度是指彩色的类别,如黄色、绿色、蓝色等;饱和度则代表颜色的深浅程度,如浅紫色、粉红色。当然,在描述上述参数时,还必须考虑照射光的光谱成分、物体表面的反射系数的光谱特性以及人眼的光谱灵敏度三方面的影响。色调与饱和度又合称为色度,可见它既表示彩色光的颜色类别,又表示颜色的深浅程度。尽管不同波长的光波所呈现的颜色不同,但人们会经常观察到这样的现象。由适当比例的红光和绿光混合起来,可以产生与黄单色光相同的彩色视觉效果。又如日光也可以由红、绿、蓝三种不同波长的单色光以适当的比例组合而成。实际上自然界中的任何一种颜色都能由这三种单
6、色光混合而成,因而称红、绿、蓝为三基色。正是根据这一现象,从人眼的彩色视觉特性角度进行分析,提出这样一种设想,并通过解剖实验得以证实。人眼视网膜是由大量的光敏细胞组成的,按其形状可分为杆状细胞和锥状细胞。杆状细胞能够起到感光作用,只是杆状细胞对弱光的灵敏度要比锥状细胞高。锥状细胞也只能在正常光照条件才能产生视觉和色感。锥状细胞分别为红敏细胞、绿敏细胞和蓝敏细胞。红光、绿光和蓝光分别能够激励红敏细胞、绿敏细胞和蓝敏细胞。换句话说,就是当红光、绿光、蓝光以适当的比例混合起来,并同时作用在视网膜上时,将分别激励红敏细胞、绿敏细胞和蓝敏细胞,从而产生彩色感觉。这说明自然界中任何一种色彩都可以通过红、绿
7、、蓝三基色混合而成。因此人们研制出相关器件,成功地利用三基色实现各种色彩的合成。3.1.3 彩色图像信号的分量表示彩色图像信号的分量表示 对于黑白图像信号,每个像素点用灰度级来表示,若用数字表示一个像素点的灰度,有8比特就够了,因为人眼对灰度的最大分辨力为26。对于彩色视频信号(例如常见的彩色电视信号)均基于三基色原理,每个像素点由红(R)、绿(G)、蓝(B)三基色混合而成。若三个基色均用8比特来表示,则每个像素点就需要24比特,由于构成一幅彩色图像需要大量的像素点,因此,图像信号采样、量化后的数据量就相当大,不便于传输和存储。为了解决此问题,人们找到了相应的解决方法:利用人的视觉特性降低彩色
8、图像的数据量,这种方法往往把RGB空间表示的彩色图像变换到其他彩色空间,每一种彩色空间都产生一种亮度分量和两种色度分量信号。常用的彩色空间表示法有YUV,YIQ和YCbCr等。1 YUV彩色空间彩色空间 通常我们用彩色摄像机来获取图像信息,摄像机把彩色图像信号经过分色棱镜分成R0,G0,B0三个分量信号,分别经过放大和校正得到RGB,再经过矩阵变换电路得到亮度信号Y和色差信号U、V,其中亮度信号表示了单位面积上反射光线的强度,而色差信号(所谓色差信号,就是指基色信号中的三个分量信号R、G、B与亮度信号之差)决定了彩色图像信号的色调。最后发送端将Y、U、V三个信号进行编码,用同一信道发送出去,这
9、就是在PAL彩色电视制式中使用的YUV彩色空间。YUV与RGB彩色空间变换的对应关系如式(3-1)所示。BGRVUY100.0515.0615.0436.0289.0147.0114.0587.0229.0(3-1)YUV彩色空间的一个优点是,它的亮度信号Y和色差信号U、V是相互独立的,即Y信号分量构成的黑白灰度图与用U、V两个色彩分量信号构成的两幅单色图是相互独立的。因为YUV是独立的,所以可以对这些单色图分别进行编码。此外,利用YUV之间的独立性解决了彩色电视机与黑白电视机的兼容问题。YUV表示法的另一个优点是,可以利用人眼的视觉特性来降低数字彩色图像的数据量。人眼对彩色图像细节的分辨能力
10、比对黑白图像细节的分辨能力低得多,因此就可以降低彩色分量的分辨率而不会明显影响图像质量,即可以把几个相同像素不同的色彩值当做相同的色彩值来处理(即大面积着色原理),从而减少了所需的数据量。在PAL彩色电视制式中,亮度信号的带宽为4.43 MHz,用以保证足够的清晰度,而把色差信号的带宽压缩为1.3 MHz,达到了减少带宽的目的。在数字图像处理的实际操作中,就是对亮度信号Y和色差信号U、V分别采用不同的采样频率。目前常用的Y、U、V采样频率的比例有4:2:2和4:1:1,当然,根据要求的不同,还可以采用其他比例。例如要存储R:G:B=8:8:8的彩色图像,即R、G、B分量都用8比特表示,图像的大
11、小为640480像素,那么所需要的存储容量为64048038/8=921600字节;如果用Y:U:V=4:1:1来表示同一幅彩色图像,对于亮度信号Y,每个像素仍用8比特表示,而对于色差信号U,V,每4个像素用8比特表示,则存储量变为640480(8+4)/8=460800字节。尽管数据量减少了一半,但人眼察觉不出有明显变化。2 YIQ彩色空间彩色空间 在NTSC彩色电视制式中选用YIQ彩色空间,其中Y表示亮度,I、Q是两个彩色分量。I、Q与U、V是不相同的。人眼的彩色视觉特性表明,人眼对红、黄之间颜色变化的分辨能力最强;而对蓝、紫之间颜色变化的分辨能力最弱。在YIQ彩色空间中,色彩信号I表示人
12、眼最敏感的色轴,Q表示人眼最不敏感的色轴。在NTSC制式中,传送人眼分辨能力较强的I信号时,用较宽的频带(1.31.5 MHz);而传送人眼分辨能力较弱的Q信号时,用较窄的频带(0.5 MHz)。YIQ与RGB彩色空间变换的对应关系如式(3-2)所示。BGRQIY311.0523.0212.0312.0275.0596.0114.0587.0229.0(3-2)3 YCbCr彩色空间彩色空间 YCbCr彩色空间是由ITU-R(国际电联无线标准部,原国际无线电咨询委员会CCIR)制定的彩色空间。按照CCIR601-2标准,将非线性的RGB信号编码成YCbCr,编码过程开始是先采用符合SMPTE-
13、CRGB(它定义了三种荧光粉,即一种参考白光,应用于演播室监视器及电视接收机标准的RGB)的基色作为校正信号。非线性RGB信号很容易与一个常量矩阵相乘而得到亮度信号Y和两个色差信号Cb、Cr。YCbCr通常在图像压缩时作为彩色空间,而在通信中是一种非正式标准。YCbCr与RGB彩色空间变换的对应关系如式(4-3)所示,可以看到:数字域中的彩色空间变换与模拟域中的彩色空间变换是不同的。1281280081.0419.0500.0500.0331.0169.0114.0587.0229.0BGRCCYrb(3-3)3.2 图像信号数字化 图像信号数字化主要包括两方面的内容:取样和量化。图像在空间上
14、的离散化称为取样,即使空间上连续变化的图像离散化,也就是用空间上部分点的灰度值来表示图像,这些点称为样点(或像素,像元,样本)。一幅图像应取多少样点呢?其约束条件是:由这些样点采用某种方法能够正确重建原图像。取样的方法有两类:一类是直接对表示图像的二维函数值进行取样,即读取各离散点上的信号值,所得结果就是一个样点值阵列,所以也称为点阵取样;另一类是先将图像函数进行正交变换,用其变换系数作为取样值,故称为正交系数取样。对样点灰度级值的离散化过程称为量化,也就是对每个样点值数字化,使其和有限个可能电平数中的一个对应,即使图像的灰度级值离散化。量化也可分为两种:一种是将样点灰度级值等间隔分档取整,称
15、为均匀量化;另一种是将样点灰度级值不等间隔分档取整,称为非均匀量化。3.2.1 取样点数和量化级数的选取取样点数和量化级数的选取 假定一幅图像取MN个样点,对样点值进行Q级分档取整。那么对M,N和Q如何取值呢?首先,M,N,Q一般总是取2的整数次幂,如Q=2b,b为正整数,通常称为对图像进行b比特量化,M、N可以相等,也可以不相等。若取相等,则图像距阵为方阵,分析运算方便一些。其次,关于M、N和b(或Q)数值大小的确定。对b来讲,取值越大,重建图像失真越小。若要完全不失真地重建原图像,则b必须取无穷大,否则一定存在失真,即所谓的量化误差。一般供人眼观察的图像,由于人眼对灰度分辨能力有限,用58
16、比特量化即可。对MN的取值主要依据取样的约束条件,也就是在MN大到满足取样定理的情况下,重建图像就不会产生失真,否则就会因取样点数不够而产生所谓混淆失真。为了减少表示图像的比特数,应取MN点数刚好满足取样定理。这种状态的取样即为奈奎斯特取样。MN常用的尺寸有512512,256256,6464,3232等。再次,在实际应用中,如果允许表示图像的总比特数MNb给定,对MN和b的分配往往是根据图像的内容和应用要求以及系统本身的技术指标来选定的。例如,若图像中有大面积灰度变化缓慢的平滑区域如人图像的特写照片等,则MN取样点可以少些,而量化比特数b多些,这样可使重建图像灰度层次多些。若b太少,在图像平
17、滑区往往会出现“假轮廓”。反之,对于复杂景物图像,如群众场面的照片等,量化比特数b可以少些,而取样点数MN要多些,这样就不会丢失图像的细节。究竟M N和b如何组合才能获得满意的结果很难讲出一个统一的方案,但是有一点是可以肯定的:不同的取样点数和量化比特数组合可以获得相同的主观质量评价。3.2.2 图像信号量化图像信号量化 经过取样的图像只是在空间上被离散为像素(样本)的阵列,而每一个样本灰度值还是一个有无穷多个取值的连续变化量,必须将其转化为有限个离散值,赋予不同码字才能真正成为数字图像,再由计算机或其他数字设备进行处理运算,这样的转化过程称为量化。将样本连续灰度等间隔分层量化方式称为均匀量化
18、,不等间隔分层量化方式称为非均匀量化。量化既然以有限个离散值来近似表示无限多个连续量,就一定会产生误差,这就是所谓的量化误差。由此产生的失真叫量化失真或量化噪声,对均匀量化来讲,量化分层越多,量化误差越小,但编码时占用比特数就越多。在一定比特数下,为了减少量化误差,往往要用非均匀量化,如按图像灰度值出现的概率大小不同进行非均匀量化,即对灰度值经常出现的区域进行细量化,反之进行粗量化。在实际图像系统中,由于存在着成像系统引入的噪声及图像本身的噪声,因此量化等级取得太多(量化间隔太小)是没有必要的,因为如果噪声幅度值大于量化间隔,量化器输出的量化值就会产生错误,得到不正确的量化。在应用屏幕显示其输
19、出图像时,灰度邻近区域边界会出现“忙动”现象。假设噪声是高斯分布,均值为0,方差为2,在有噪声情况下,最佳量化层选取有两种方法,一是令正确量化的概率大于某一个值,二是使量化误差的方差等于噪声方差。针对输出图像是专供人观察评价的应用,研究出了一些按人的视觉特性进行非均匀量化方式,如图像灰度变化缓慢部分细量化,而图像灰度变化快的细节部分粗量化,这是由于视觉掩盖效应被发现而产生的。再如按人的视觉灵敏度特征进行对数形式量化分层等。3.3.1 图像压缩的必要性图像压缩的必要性 数字化后的图像和视频信息数据量非常大,与当前硬件技术所能提供的计算机存储资源和网络带宽之间有很大差距。这样,就对图像信息的存储和
20、传输造成了很大困难,成为阻碍人们有效获取和利用信息的一个瓶颈问题。不对图像数据进行有效的压缩,就难以保证通信的顺利进行。下面列举例子来说明。在地球的周围有很多围绕地球旋转的卫星。通常卫星获取一帧图像的数据量为几百Mb几Gb,卫星在旋转的过程中每天要获取很多帧图像,并在通过卫星接收站时将图像传送回地面。如果不进行压缩,如此大的数据量是很难存储和顺利传输的。以一般彩色电视信号为例,设代表光强、色彩和色饱和度的YIQ 空间中各分量的带宽分别为4MHz、1.3MHz和0.5MHz。根据采样定理,仅当采样频率大于或等于2倍的原始信号的频率时,才能保证采样后的信号可被保真的恢复为原始信号。再设各样点均被数
21、字化为8bit,从而1秒钟的电视信号的数据量为 (4+1.3+0.5)28 bit=92.8Mbit 因而一张640MB容量的CD ROM能够存放的原始电视数据(每字节附有2位效验位)为 6408/92.8(1+0.25)=44s 也就是说,一张普通光盘只能存放44s的原始数据。表3-1列出了图像、视频信号高质量存储和传输所必须的未压缩速率以及信号特性。表3-1 各种信号的特性和未压缩速率图像像素/帧比特/像素未压缩信号大小传真1700220013.74 MbVGA64048082.46 MbXVGA10247682418.8 Mb视频像素/帧画面比帧/秒比特/像素未压缩速率NTSC48048
22、34:329.9716111.2 Mb/sPAL5765764:32516132.7 Mb/sCIF3522884:314.981218.2 Mb/sQCIF1761444:39.99123.0 Mb/sHDTV128072016:959.9412622.9 Mb/sHDTV1920108016:929.9712745.7 Mb/s 从以上两个例子以及表3-1可以看出:未进行任何形式的编码和压缩的图像信息数据量庞大,传输速率高,如果不进行压缩处理,计算机系统几乎无法对其进行存取和交换,因此,对数字图像进行压缩十分必要。3.3.2 图像压缩的可行性 从信息论观点来看,描述图像的数据是信息量(信源
23、熵)和信息冗余量之和。图像数据压缩编码的本质就是减少这些冗余量,从而可以减少数据量而不是减少信源的信息量。因此,冗余是图像压缩的着眼点。一般而言,图像频数据中存在的数据冗余类型主要有以下一些:1.数据间冗余数据间冗余 数据间冗余可分为空间冗余和时间冗余。在同一幅图像中,规则物体和规则背景的表面物理特性具有相关性,这些相关性的光成像结果在数字化图像中就表现为空间冗余。例如,图3-1是一张俯视图,图中央的黑色是一块表面均匀的积木块,在图中,黑色区域所有点的光强和色彩以及饱和度都是相同的,因而黑色区域的数据表达有很大的冗余。对空间冗余的压缩方法就是把这种集合块当作一个整体,用极少的数据量来表示它,从
24、而节省了存储空间。这种压缩方法叫空间压缩或帧内压缩,它的基本点就在于减少邻近像素之间的空间(或空域)相关性。图3-1 空间冗余 时间冗余反映在图像序列中就是相邻帧图像之间有较大的相关性,一帧图像中的某物体或场景可以由其他帧图像中的物体或场景重构出来。图3-2给出了时间冗余的示例。图中F1帧中有一辆汽车和一个路标P,再经过时间T后的图像F2仍包含以上两个物体,只是小车向前行驶了一段路程。此时,F1和F2是时间相关的,后一幅图像F2在参照图像F1的基础上只需很少数据量即可表示出来,从而减少了存储空间,实现了数据压缩。这种压缩对运动图像往往能得到很高的压缩比,这也称为时间压缩或帧间压缩。PF1PF2
25、图3-2 时间冗余2.信息熵冗余信息熵冗余 信息熵冗余也称为编码冗余。信源编码时,当分配给第个码元类的比特数时,(为第个码元类的概率),才能使编码后单位数据量等于其信源熵,即达到其压缩极限。但实际中各码元类的先验概率很难预知,比特分配不能达到最佳,从而使实际单位数据量大于信源熵,即存在信息熵冗余。图3-3给出了一个信息熵冗余的示例。图3-3中(a)、(b)是大小相同的两幅图像,均为300300像素。其中3-3(a)图每个像素用16位进行编码,而3-3(b)图每个像素用8位进行编码,因此图像大小分别为1440000比特和720000比特,虽然图像大小相差一倍,可是它们的视觉效果却基本相同。因此,
展开阅读全文