信息论之视频压缩讲稿课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息论之视频压缩讲稿课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 视频压缩 讲稿 课件
- 资源描述:
-
1、信息论之视频压缩讲稿景麟 2007.05 主要讨论的问题:主要讨论的问题:41.视频压缩的必要性42.视频压缩的信息论基础43.常用的视频压缩方法44.视频压缩的关键技术45.MPEG-2运动视频压缩标准46.作业 1 视频压缩的必要性一幅中等分辨率一幅中等分辨率24位真彩色的位图图像(位真彩色的位图图像(640480,24位位/像素),典型参数为:像素),典型参数为:图像分辨率:图像分辨率:640480图像颜色数:图像颜色数:16,777,216(=224)颜色深度颜色深度(位位):24数据量为:约数据量为:约0.9MB,根据下式计算,根据下式计算:对于以上数据量,若用对于以上数据量,若用N
2、TSC制式(制式(30帧帧/秒)播放动秒)播放动态视频,需要约态视频,需要约27MB/秒的视频传输速度,在秒的视频传输速度,在650MB的光盘中存放时间约的光盘中存放时间约24秒。秒。):(8)(字节单位颜色深度水平方向分辨率垂直方向分辨率数据量1 视频压缩的必要性可见,在不经过数据压缩情况下,CD视频播放机根本无法达到实用目的。目前一张650MB的CD激光视盘可以连续播放75分钟的视频电影。说明压缩的余地相当大。同样,传输中也存在同样的困难。网络带宽受限。2 视频压缩的信息论基础信息论是视频数据压缩的重要理论基础。4信息之所以能进行压缩,是因为信息本身通常存在很大的冗余量。4根据信息论的观点
3、,若信源编码的熵大于信源的实际熵,则该信源中一定存在冗余。因此,在数据存储或传输时,通过对信源选择优化的编码方案,消除了冗余,也就达到了数据压缩目的。信息冗余信息冗余4三种基本的信息冗余三种基本的信息冗余 编码冗余编码冗余 自然码,码字长度自然码,码字长度L L 编码效率编码效率 像素间冗余像素间冗余 与像素间相关性直接联系着的数据冗余与像素间相关性直接联系着的数据冗余(统计冗余统计冗余)结构结构 空间冗余空间冗余 (几何冗余)(几何冗余)心理视觉冗余心理视觉冗余 人眼不是对所有视觉信息有相同的敏感度。人眼不是对所有视觉信息有相同的敏感度。马赫带效应马赫带效应 知识冗余知识冗余统计冗余图像数据
4、存在大量的统计特征的重复,这种重复包括静态单帧图像数据在空间上的冗余和视频数据在时间上的冗余。在动态图像序列中,前后两帧图像之间具有较大的相关性,表现出帧与帧之间的重复,因而存在时间冗余。结构冗余有些图像从大面积上或整体上看存在着重复出现的相同或相近的纹理结构,例如布纹图像和草席图像,被称为结构冗余。几何冗余知识冗余有许多图像的理解与图像所表现内容的基础知识(先验或背景知识)有相当大的相关性,从这种知识出发可以归纳出图像的某种规律性变化,这类冗余称为知识冗余。知识冗余的一个典型例子是对人像的理解,比如,鼻子上方有眼睛,鼻子又在嘴的上方等。视觉冗余 人类的视觉系统实际上只在一定程度上对图像的变化
5、产生敏感,即图像数据中存在着大量人类视觉觉察不到的细节。事实上,人类视觉系统的一般分辨力为64级灰度,而一般图像量化采用的是256级灰度,这类冗余称为视觉冗余。256色标准图像转换成的灰度图 24比特标准图像转换成的灰度图 l视频编码的基本思想是去除视频图像中的冗余信息。而信息论和Shannon三大编码定理是视频编码技术的理论基础。lShannon三大编码定理:无失真信源编码定理 有噪离散信道编码定理 限失真信源编码定理3 常用的视频压缩方法(1)数据压缩方法分类从信息保持的角度可分为两大类:无损压缩和有损压缩。无损压缩无损压缩是利用信源的统计冗余,数据间的相关性,可完全恢复数据而不引入失真,
6、由于整个编解码过程中,信源信息的熵始终保持不变,因此无损压缩又被称为熵保持编码,无损压缩的编码效率受信息的熵限制,压缩率通常在2至5倍。无损编码包括:变换编码、Huffman量化、游程编码、算术编码等。3 常用的视频压缩方法 有损编码有损编码则是利用人眼视觉特性(HVS:Human Vision System),对人眼不敏感的某些图像细节信息进行压缩甚至忽略不编码,因此在解码恢复的过程时,不能完全恢复数据的全部信息,引入了失真,但是对于图像的最终接收者人眼而言,获得的信息的变化不大(即无大的视觉失真),同时获得较大的压缩率(10到200倍)。3 常用的视频压缩方法在常用的视频编码应用中,有损编
7、码是与无损编码进行混合编码,并以无损编码为基础。3 常用的视频压缩方法(2)常用的数据压缩算法 预测编码预测编码(DPCM、ADPCM)变换编码变换编码(最佳变换、最佳变换、KLT、DCT)统计编码统计编码(Huffman码、码、Shannon-Fano码、算术编码、算术编码码)分形图像编码分形图像编码(概念、特点、原理、技术、过程概念、特点、原理、技术、过程)游程编码游程编码(Zig-Zag编码编码)轮廓编码轮廓编码 混合编码混合编码 4 视频编码的关键技术4运动图像是视频编码的基础n利用人眼的视觉惰性作用:对亮度信号保持感觉1/201/10秒n序列图象、图形(动画)(2530帧/秒)形成运
8、动感觉4 视频编码的关键技术(1)色彩模型 MPEG的视频图像使用的是YCbCr(Y色度CbCr为亮度)颜色模型,而不是计算机上最常用的 RGB。YCbCr 模型更适合图形压缩,因为人眼对图像上的亮度Y的变化远比色度 CbCr 的变化敏感。我们完全可以每个点保存一个 8bit 的亮度值,每 2x2 个点保存一个 CbCr 值,而图象在肉眼中的感觉不会起太大的变化。所以,原来用RGB模型,4个点需要4x3=12字节。而现在仅需要4+2=6字节;平均每个点占12bit,简写为 YUV12。4 视频编码的关键技术RGB-YCbCr的转换:YCbCr-RGB的转换:0.2990.5870.114-0.
9、1687-0.33130.50.5-0.4187-0.0813YRCbGCrB101.4021-0.344-0.71411.7720RYGCbBCr4 视频编码的关键技术(2)预测编码(帧间编码)n帧间编码技术处理的对象是序列图像(也称为运动图像);nASIC的迅速发展,已有可能把几帧图像存储起来作实时处理,利用帧间的时间相关性进一步消除图像信号的冗余度,提高压缩比。n帧间编码的技术基础是运动预测和补偿运动预测和补偿。4 视频编码的关键技术(2.1)运动预测和补偿n目前,从H.26x到MPEG-1,2,4都无一例外地采用“简单帧间预测运动补偿”(或者“简单帧间预测+有条件地切换为帧内编码”)的
10、技术框架。n运动补偿(Motion Compensation)简写为MC。运动补偿运动补偿n运动补偿是MPEG中使用的主要技术之一。对提高编码压缩比很有好处。尤其对于运动部分只占整个画面较小的会议电视和可视电话,此技术后,压缩比可以提高很多。n用这一技术计算图像中运动部分位移的两个分量可使预测效果大大提高。n运动补偿方法是跟踪画面内的运动情况对其加以补偿之后再进行帧间预测。n这项技术的关键是运动向量的计算。运动补偿运动补偿运动预测和补偿通常由下面几方面组成:把图象分割为静止和运动两部分,并假设运动物体仅作平移。估计物体的位移值。用位移估值(即运动矢量)进行运动补偿预测。预测信息编码。运动预测补
11、偿示意图例如图中将当前预测值的位置沿物体平移的方向错开Dx个象素再进行预测,称运动预测补偿。运动预测与补偿技术示意运动预测与补偿技术示意图象分割图象分割(Image Segmentation)是运动补偿预测的基础,分割的办法:实际分割成不同运动的物体,但较困难。把图象分为矩形子块,将子块分为动与不动两种,估计出运动子块的位移。对每个象素的位移都进行递归估计,计算量大。块匹配法则块匹配法则(Block Matching Algorithm)简称BMA,它假设块内各象素只作相等的平移,H.26x和MPEG都采用了BMA。首先确定MN块与搜索区的几何关系如右图,用MN子块在搜搜索区索区内寻求最优匹配
12、来得 到 运 动 矢 量 估 值(dx,dy)。搜索区域搜索区域块匹配法则4最佳匹配块判决准则互相关函数(CCF,Cross Correlation Func)均方误差(MSE,Mean Squared Error)为第k帧中(m,n)位置的像素亮度值。112121(,)(,)(,)y Nx Nkkm xn yMSE i jIm nImi njN(,)kIm n1111/21/211111(,)(,)(,)(,)(,)y Nx Nkkm xn yy Ny Nx Nx Nkkm xn ym xn yIm n Imi njCCF i jIm nImi nj 块匹配法则绝对差值和(SAD,Sum o
13、f Absolute Difference)为第k帧中(m,n)位置的像素亮度值。其中CCF 计算量大,运用较少;MSE匹配效果最好,实验中多为采用;MAD计算量小,效果接近于MSE,多在快速算法中使用。111(,)(,)(,)y Nx Nkkm xn ySAD i jIm nImi nj(,)kIm n搜索方法全搜索(FS,Full Search)精度最高,最为复杂,必须对搜索范围内所有块进行匹配运算。上图区域总共需要搜索2Mx2My次(整象素搜索)。快速算法快速算法三步法(3SS,Three Step Search)四步法(4SS,Four Step Search)二维对数搜索法(LOGS
14、,Logarithmic Search)菱形搜索法(CS,Cross Search)钻石搜索法(DS,Diamond Search)块匹配法则存在的问题:4块尺寸的选择,块小的时候才可近似认为块内各点作相等平移,但块太小易受干扰噪声的影响,不可靠,而且矢量场比特数多,块大可减轻噪声影响,但影响估值精度。而且大的块常包含多个不同运动的物体,块内运动一致性难于满足。H.26x和MPEG的建议选1616作为“宏块”。4估值得到的运动矢量场一致性不够好,这是由于分割图象为块的缘故。(3)离散余弦变换(DCT)MPEG采用88子块的二维离散余弦变换算法。DCT的实质与特点:利用正交变换实现图象数据压缩的
展开阅读全文