《多媒体计算机技术》课件第5章 多媒体数据压缩编码技术.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《多媒体计算机技术》课件第5章 多媒体数据压缩编码技术.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多媒体计算机技术 多媒体计算机技术课件第5章 多媒体数据压缩编码技术 多媒体 计算机技术 课件 数据压缩 编码 技术
- 资源描述:
-
1、第5章 多媒体数据压缩编码技术 多媒体数据压缩编码的重要性 随着计算机技术的高度发展以及通信、计算机和大众传媒三大技术的相互融合,计算机已经不再局限于数值计算、文字处理的范畴,而成为处理图形、图像、视频、音频等多种信息的工具。但数字化后的声音、图像、视频和音频等多媒体数据是非常庞大的。例如:一页在A4(216mm300mm)纸上的照片,以300dpi(12像素/mm)采样,每个像素用24位真彩色信号表示,其数据量约为25MB/页,650MB的CD-ROM只可放14页;双声道立体声光盘,采样率是44.1kHz,采样精度16位,一秒钟数据量是44.1162/8=176KB/s,一张CD只能存放约1
2、小时的声音。多媒体数据压缩编码的重要性 对于如此巨大的多媒体数据,如果不经过压缩,不仅超出了计算机的存储和处理能力,而且在现在的通信信道的传输速率下,是无法完成大量多媒体信息的传输的,多媒体数据的高速传输和储藏所需要的巨大容量已经成为多媒体数据通信技术的最大障碍。因此,为了存储、处理和传输这些数据,必须进行压缩。多媒体数据压缩编码的重要性 多媒体数据之所以能够进行压缩是因为原始数据是高度相关的,存在很大的数据冗余。多媒体数据所包含的冗余信息一般有以下几种:(1)统计冗余。(2)信息熵冗余。(3)结构冗余。(4)知识冗余。(5)视觉冗余。统计冗余 图像数据存在大量的统计特征的重复,这种重复包括静
3、态单帧图像数据在空间上的冗余和音频、视频数据在时间上的冗余。在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。信息熵冗余 信息熵定义为一组数据所表示的信息量,即 式中,E为信息熵,N为数据的种类(或称码元)个数,为第i个码元出现的概率。一组数据的数据量显然等于各记录码元的二进制位数(即编码长度)与该码元出现的概率乘积之和,即 式中,D为数据量,为第i个码元的二进制位数。一般取 (如ASCII编码把所有码元都编码为7比特),这样得到的D必然大于E。这种因码元编码长度的不经济带来的冗余称为信息熵冗余或编码冗余。iNiippE210logiNiibpD10
4、110Nbbb信息熵冗余图 26个英文字母相对频率结构冗余 有些图像从大面积上或整体上看存在着重复出现的相同或详尽的纹理结构,例如布纹图像和草席图像,被称为结构冗余。知识冗余 许多图像的理解与图像所表现内容的基础知识(鲜艳或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,如鼻子上方有眼睛、鼻子又在嘴的上方等。视觉冗余 人类的视觉系统实际上只在一定程度上对图像的变化产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨率为64灰度级,而一般图像量化采用的是256灰度级,这类冗余称
5、为视觉冗余。多媒体数据压缩方法的分类 多媒体数据压缩方法有许多种,从不同的角度出发有不同的分类方法。1从信息论角度出发可分为两大类(1)冗余度压缩方法。也称无损压缩、信息保持编码或熵编码。(2)信息量压缩方法。也称有损压缩、失真度编码或熵压缩编码。2按压缩算法分类 现有多媒体数据的压缩编码方案可分为统计编码、预测编码、脉冲编码调制、变换编码、子带编码、分形编码和小波编码等。评价多媒体数据压缩方法的指标 评价多媒体数据压缩方法有3个主要指标:1压缩比2压缩质量(失真度)3压缩与解压的速度 压缩比并不是一个绝对的指标压缩比并不是一个绝对的指标将16M色的真彩图像(图A)转变为256色(图B),数据
6、量减少了约3倍,压缩比为1:3.当然这时产生了色彩失真,但如果选择原图的色彩范围定义调色板,色彩失真较小,人眼一般都还能接受.如果把图像深度从8位再压缩到4位,即从256色再压到16色(图C),虽然数据量只减少了2倍,压缩比为1:2,但这时的人眼所看到的色彩失真比第一次大得多,效果很差图像效果 图像类型图A 真彩色图像图B 256色图像图C 16色图像压缩比8/24=1/34/24=1/6常用的编码方法 根据压缩算法的原理,可以将压缩算法分为如下几类:信息熵编码(主要有行程长度编码、哈夫曼编码和算术编码)、通用编码、预测编码、模型法编码、矢量量化编码、子带编码和混合编码等。信息熵编码 1行程长
7、度编码行程长度编码(Run-Length Encoding,RLE)又叫游程编码,是压缩文件最简单的方法之一。把一系列的重复值(例如图像象素的灰度值)用一个单独的值再加上一个计数值来取代。比如有这样一个字母序列aabbbccccccccdddddd它的行程长度编码就是2a3b8c6d。很多位图文件格式都用行程长度编码,例如TIFF,PCX、GEM等。行程长度编码例有一线状图像,其灰度随长度坐标的关系如图3.1所示。描述这个一维图像可以用顺序的七个3bit的二进制数表示:011,011,011,011,101,101,101,共21比特。如果用行程编码方法对其编码,其编码就变成了100,011;
8、011,101,共用了12比特,比前一种编码节约了9个比特。哈夫曼编码编码步骤如下:(1)统计信源符号出现的概率;(2)将信源符号按概率递减顺序排列;(3)把两个最小的概率值加起来,作为一个新组合符号的概率;(4)重复步骤(2)、(3),直到概率和达到1为止;(5)在每次合并信源时,将合并的信源分别标记“1”和“0”(例如,概率小的标记为“1”,概率大的标记为“0”);(6)寻找从每一信源符号到概率为1的路径,记录下路径上的“1”和“0”;(7)对每一符号写出“1”和“0”序列;哈夫曼编码的 例子考虑信源进行哈夫曼编码的过程如下:信源符号 X1 X2 X3 X4 X5 X6 概 率 0.25
9、0.25 0.20 0.15 0.1 0.05X1X6X5X4X3X20.050.100.150.200.250.2511010010100(0.15)(1.00)(0.55)(0.30)(0.35)01001100100001110432224信源符号概率编码过程码字码长哈夫曼编码的不足 它必须精确地统计出原始文件中每个值的出现频率,如果没有这个精确统计,压缩的效果就会大打折扣,甚至根本达不到压缩的效果。因此哈夫曼编码通常要经过两遍操作,第一遍进行统计,第二遍产生编码,所以编码的过程是比较慢的。另外由于各种长度的编码的译码过程也比较复杂,因此解压缩的过程也比较慢。它对于位的增删比较敏感。算术
10、编码 算术编码在图像数据压缩标准(如JPEG,JBIG)中扮演了重要的角色。在算术编码中,消息用0到1之间的实数进行编码,算术编码用到两个基本的参数:符号的概率和它的编码间隔。信源符号的概率决定压缩编码的效率,也决定编码过程中信源符号的间隔,而这些间隔包含在0到1之间。编码过程中的间隔决定了符号压缩后的输出。算法举例假设信源符号为00,01,10,11,这些符号的概率分别为 0.1,0.4,0.2,0.3,根据这些概率可把间隔0,1)分成4个子间隔:0,0.1),0.1,0.5),0.5,0.7),0.7,1),二进制消息序列的输入为:10 00 11 00 10 11 01算术编码算术编码的
11、主要特点(1)信源符号的出现概率比较接近时,算术编码的效率比哈夫曼编码高。(2)算术编码的实现比哈夫曼编码复杂。算术编码是一种相对比较新的编码,它在许多方面比哈夫曼编码优越;算术编码是按照分数比特逼近熵,而哈夫曼编码是按照整数比特逼近熵;算术编码可以有效地从模型中分离出来,而哈夫曼编码是与统计模型强相关的。算术编码需要注意的几个问题1.由于实际计算机精度不可能无限长,运算中溢出是明显的问题,但多数机器都有16位、32位或者64位的精度,因此可使用比例缩放法解决。2.算术编码器对消息只产生一个码字,这个码字是在0,1)中的一个实数,因此译码器在接受到表示这个实数的所有位之前不能进行译码。3.算术
12、编码也是一种对错误很敏感的编码方法,如果有一位发生错误就会导致整个消息译错。算术编码可以是静态的或者自适应的。在静态算术编码中,信源符号的概率是固定的。在自适应算术编码中,信源符号的概率根据编码时符号出现的频繁程度动态地进行修改,在编码期间估算信源符号概率的过程叫做建模。需要开发动态算术编码的原因是因为事先知道精确的信源概率是很难的,而且是不切实际的。当压缩消息时,我们不能期待一个算术编码器获得最大的效率,所能做的最有效方法是在编码过程中估算概率。因此动态建模成为确定编码器压缩效率的关键。词典编码词典编码的思想 第一类词典法的想法是企图查找正在压缩的字符序列是否在以前输入的数据中出现过,然后用
13、已经出现过的字符串替代重复的部分,它的输出仅仅是指向早期出现过的字符串的“指针”。第二类词典编码 第二类算法的想法是企图从输入的数据中创建一个“短语词典(dictionary of the phrases)”,这种短语可以是任意字符的组合。编码数据过程中当遇到已经在词典中出现的“短语”时,编码器就输出这个词典中的短语的“索引号”,而不是短语本身。LZW算法的压缩过程 LZW算法在压缩过程中主要处理3种数据:输入流、输出流和一张字符串表。输入流就是原始的字符流(对图像处理而言就是图像数据),输出流则是压缩生成的代码流。LZW压缩程序的任务就是把输入的原始数据转换成比原来短的代码串。字符串表是整个
14、算法的核心。LZW算法和其他一些压缩技术的不同之处在于它是动态地标记数据流中出现的重复串。它把压缩过程中遇到的字符串记录在这张庞大的表中,在下一次又碰到这一字符串的时候,就用一个代码来表示它,通过用短代码来表示相对较长的字符串来压缩数据量。其具体压缩流程如右图所示。LZW算法的解压缩过程 解开一个GIF图像实际上刚好是压缩的一个逆过程。字符流变成了输出流,而代码流变成了输入流。同样,解压缩程序也要生成并维护与压缩时所用的一模一样的串表。解压缩程序从串表中查到输入代码对应的字符串,再将此字符串输出。右图给出了解压缩过程的流程。预测编码 通常,图像中局部区域的像素是高度相关的,因此可以用先前像素的
15、有关灰度知识来对当前像素的灰度进行估计,这就是预测。如果预测是正确的,则不必对每一个像素的灰度都进行压缩,而是把预测值与实际像素值之间的差值经过熵编码后发送到接收端,接收端通过预测值+差值信号来重建原像素。预测编码可分为线性预测编码和非线性预测编码。前者常被称为差分脉冲编码调制,即DPCM(Differential Pulse Code Modulation)。DPCM的原理框图(a)DPCM编码框图(b)DPCM译码框图DPCM编码示例DPCM系统如图所示,预测器的预测值为前一个样值(图中D表示单位延迟)。假设输入信号已经量化,差 值 不 再 进 行 量 化。若D P C M 系 统 的 输
16、 入 为0,1,2,1,1,2,3,3,4,4,则编码过程如下:变换编码 变换编码是进行一种可逆的函数变换(例如离散傅里叶变换),映射变换从一个信号域变换到另一个信号域。在变换到另一个信号域的过程中,只要适当处理,就可以大大减少需要编码的信息,从而达到减化编码过程,实现数据压缩的目的,通常压缩效果很好。变换编码原理图 模型编码 模型编码将图像信号看成三维世界中的目标和景物投影到二维平面的产物,而对这一产物的评价是由人类视觉系统的特性决定的。模型编码的关键是对特定的图像建立模型,并根据这个模型确定图像中景物的特征参数,如运动参数、形状参数等。解码时根据参数和已知模型用图像合成技术重建图像。由于编
17、码的对象是特征参数,而不是原始图原像,因此有可能实现比较大的压缩比。模型编码引入的误差主要是人眼视觉不太敏感的几何失真,因此重建图像非常自然和逼真。1988年召开的首届“64kb/s活动图像编码工作会议”确定了模型编码为新一代的编码方法。混合编码 以两种或两种以上的方法对图像进行编码称为混合编码,本章后面介绍的JPEG和MPEG都属于混合编码。多媒体数据压缩的国际标准 音频压缩标准 音频信号是多媒体信息的重要组成部分。目前,业界公认的声音质量标准分为4级,即数字激光唱盘CD-DA质量,其信号带宽为10Hz20kHz;调频广播FM质量,其信号带宽为20Hzl5kHz;调幅广播AM质量,其信号带宽
18、为50Hz7kHz;电话的话音质量,其信号带宽为200Hz3.4kHz。可见,数字激光唱盘的声音质量最高,电话的话音质量最低。数字音频压缩技术标准分为电话语音压缩、调幅广播语音压缩、高保真立体声音频压缩三种。ITU-T的G系列声音压缩标准 ITU-T是国际电信联盟电信标准化部门,它研究和制定除无线电以外的所有电信领域标准。对于不同的音频信号,ITU-T制定了不同的音频标准。(1)用于电话质量的语音压缩标准。(2)用于调幅广播质量的音频压缩标准。G.7xx标准 G.7xx是一组ITU-T标准,用于音频压缩和解压缩,主要用于电话方面。在电话技术中,有两个主要的算法标准,分别定义在mu-law算法(
19、美国使用)和a-law算法(欧洲及世界其他国家使用)中。两者都是基于对数关系的,但对于计算机的处理来说,后者更为简单。G.7xx协议组的组成 G.711:64kb/s信道上的语音频率脉冲编码调制(PCM)。量化位数为8bit,采样频率为8kHz。G.721:32kb/s自适应差分脉冲编码调制(ADPCM)。量化位数为4bit,采样频率为8kHz。G.722:64 kb/s下的7 kHz音频编码,采样频率为16 kHz。采用子带编码,即将16kHz的频带分为两个子带,通过ADPCM分别进行编码。G.722.1:带有低帧损耗的具有免提操作的系统在24 kb/s和32 kb/s上的编码。G.722.
20、2:利用自适应多频率宽带(AMR-WB)以16 kb/s多频率语音编码。G.7xx协议组的组成G.723:24 kb/s自适应差分脉冲编码调制。采样频率为8 kHz。G.726:40、32、24、16 kb/s自适应差分脉冲编码调制。采样频率为8 kHz。G.727:采用嵌入式自适应差分脉冲编码调制。G.728:利用短时延码本激励线性预测(LD-CELP)算法,比特率为16 kb/s,采样频率为8 kHz。G.729:利用共轭结构代数激励编码线性预测(CS-ACELP),比特率为8 kb/s。高保真立体声音频压缩标准 高保真立体声音频信号的频率范围为50 Hz20 kHz,在44.1 kHz采
21、样频率下用16 bit量化,信号速率为每声道705 kb/s。目前国际上比较成熟的高保真立体声音频压缩标准为MPEG音频。MPEG是由音频和视频两部分组成的,可以分别进行压缩。MPEG MPEG音频根据不同的算法分为三个层次。Layer 1与Layer 2具有大致相同的算法。输入音频信号的采样频率为48 kHz、44.1 kHz或32 kHz,经过滤波器组分成32个子带。同时编码器利用人耳的掩蔽效应,根据音频信号的性质计算各个频率分量的掩蔽门限,以控制每一个子带的量化参数,达到数据压缩的目的。MPEG音频的Layer 3进一步引入了辅助子带、非均匀量化和熵编码等技术,可以进一步压缩码率,目前在
展开阅读全文