第二章信息论的基本概念课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章信息论的基本概念课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 信息论 基本概念 课件
- 资源描述:
-
1、信息无处不在,但:信息无处不在,但:信息用什么表示信息用什么表示?如何表示如何表示?不确定性携载的信息不确定性携载的信息可用随机变量的不确定性或随机性作为信息的表示可用随机变量的不确定性或随机性作为信息的表示“信息是事物运动状态或存在方信息是事物运动状态或存在方式的不确定性的描述式的不确定性的描述”香农香农问题问题1:信息是随机的信息是随机的问题问题2:分析信息的特征,信息量(消息)关系式应反映如下规律:(1)信息量是概率的非负函数,即 I=fP(x)(2)P(x)越小,I越大;反之,I越小,且 P(x)1时,I0 P(x)0时,I(3)若干个互相独立事件构成的消息,所含信息量等于各独立事件信
2、息量之和,也就是说,信息具有相加性,即 IP(x1)P(x2)=IP(x1)+IP(x2)+自信息:自信息:研究思路一研究思路一自信息:自信息:)(1log)(ixpixpf)(1log)(ixpixI)(,),(),(,)(2121nnxpxpxpxxxXPX,自信息:自信息:12()()logiip xI x比特1()()lniip xI x奈特1()()lgiipxI x哈 特一般都采用以一般都采用以“2”2”为底的对数,为了书写简洁,有时把底数为底的对数,为了书写简洁,有时把底数2 2略去不写。略去不写。nixpixpiixpEXH1)(1)(1log)(log)(XP(x)a1 a2
3、 aNp1 p2 pN信息论关心信息论关心:X的的不确定性不确定性不确定性大,获取的信息量多不确定性大,获取的信息量多研究思路二研究思路二不确定性分析:不确定性分析:随机变量随机变量X、Y、ZXP(X)a1 1 a2 2 0.01 0.99ZP(Z)a1 a2 a3 a4 a50.2 0.2 0.2 0.2 0.2YP(Y)a1 1 a2 2 0.5 0.5问题:问题:1、能否度量?、能否度量?小小大大2、如何度量?、如何度量?1、连续性条件:、连续性条件:是是 的连续函数的连续函数2、等概时为单调增函数:、等概时为单调增函数:是是N的增函数的增函数)(),.,(111NgfNNN3、可加性条
4、件:当随机变量的取值不是通过一次试验而是若干、可加性条件:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,次试验确定取值时,X在各次试验中的不确定性可加。在各次试验中的不确定性可加。结论结论:唯一唯一的形式:nNnnnppCpppflog),(121NnnnNpppppH121log),.,(C=常数0,即:),(21npppfnp可加性条件进一步说明:可加性条件进一步说明:当随机变量的取值不是通过一次试验而是若干次试验确定取值时,随机变量在各次试验中的不确定性可加,且其和始终与通过一次试验取得结果的不确定程度相同。1211212121(,.)(,)(,)nmmnnnnnnfpppq
5、qqqqqfpppppfppp12.mnqqqpniiiiniippxpxpH11log)(log)()(X含义:含义:(1)通过观测随机)通过观测随机 变量变量X所获得的所获得的 平均信息量平均信息量(2)对随机变量)对随机变量X的的 “不确定性不确定性”、“随机性随机性”的度量的度量通过观测随机变量通过观测随机变量X所获得的所获得的平均平均信息量信息量(不确定性)(不确定性)各取值的概率分布各取值的概率分布确切取值确切取值 (0)(不确定性)(不确定性)熵的差值熵的差值一定的确切性一定的确切性多次试验后多次试验后通过试验消除了不确定性获得了信息通过试验消除了不确定性获得了信息信息量获得的信
6、息的数量信息量获得的信息的数量XP(x)1 2 3 4 5 61/6 1/6 1/6 1/6 1/6 1/6H(x)=log6=2.58bits=1.79natsX1P(x1)1 2 3 4 5 6 0 1 0 0 0 0H(x1)=0H(x)H(x1)=log6H(x)=log8=3(bit/符号)XP(x)1 2 3 4 5 6 7 81/8 1/8 1/8 1/8 1/8 1/8 1/8 1/8 12312345678第一次测量后:X1P(x1)1 2 3 4 5 6 7 81/4 1/4 1/4 1/4 0 0 0 0 H(x1)=log4=2(bit/符号)H(x)H(x1)=1获得
7、获得1bit信息量信息量H(x2)H(x3)=1 获得获得1bit信息量信息量第二次测量后:X2P(x2)1 2 3 4 5 6 7 81/2 1/2 0 0 0 0 0 0 H(x2)=log2=1(bit/符号)第三次测量后:X3P(x3)1 2 3 4 5 6 7 8 1 0 0 0 0 0 0 0 H(x3)=log1=0(bit/符号)H(x1)H(x2)=1 获得获得1bit信息量信息量H(X)表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的表示在获知哪个灯泡是坏的情况前,关于哪个灯泡已损坏的平均不确定性,即要确定哪个灯泡是坏的,至少需要获得平均不确定性,即要确定哪个灯泡是坏的
8、,至少需要获得3个个bit的信息量,才能完全消除不确定性。的信息量,才能完全消除不确定性。观察随机变量观察随机变量X、Y、ZXP(x)a1 a2 0.01 0.99ZP(z)a1 a2 a3 a4 a50.2 0.2 0.2 0.2 0.2YP(y)a1 a2 0.5 0.5H(X)=-0.01log0.01-0.99log0.99 =0.08(比特/符号)H(Y)=-0.5log0.5-0.5log0.5 =1(比特/符号)H(Z)=5(-0.2log0.2)=2.32(比特/符号)XP(x)A B C D E0.2 0.2 0.2 0.2 0.2XP(x)A B C D E0.25 0.2
9、5 0.25 0.25 0H(X)=5(-0.2log0.2)=2.32(比特)H(X)=4(-0.25log0.25)=2(比特)甲获得的信息甲获得的信息=H(X)-H(X)=0.32(比特)(比特)还需要的信息还需要的信息2.32-0.32=2(比特)(比特)证明一:证明一:NnnnNpppppH121log),.,(因为:因为:10np则:则:0lognp所以:所以:0)(PH证明二:证明二:01x 有:有:1log xx或:xx1log1所以:所以:0)1(log)(111nNnnpNnnpppPHn00.511.522.5300.511.522.533.5412xyxz图示为与两条曲
10、线对比凸性的概念凸性的概念:若对区域若对区域D中任意两点中任意两点 和和 ,均有:均有:则称:区域则称:区域D是凸域。是凸域。理解理解:若两点若两点 和和 在凸域在凸域D内,则内,则 和和 之间的线段也整个在区域之间的线段也整个在区域D内。内。DD,10,)1(D若在凸域内若在凸域内111(),1,2,01,1()()mMMMmmmmmmmmmf xDD mMff 设是凸域 上的,且则对,有:下凸函数L这一结果被称为11()()MMmmmmmmf xffD反之,如是凸域 上的,上凸函数则有:xx1log1作业作业NXHlog)(max其中:其中:N为为X可能取值得个数。可能取值得个数。例例2.
11、4:二元熵函数是对:二元熵函数是对01分布的随机变量所求的熵:分布的随机变量所求的熵:XP(x)0 1 p 1-pH(X)=-plogp-(1-p)log(1-p)=H(p)有:而:可以证明,可以证明,p1/2时,时,H(p)取最大值,为取最大值,为log2=1。而而p=0或或1时,时,H(p)0,故二元熵函数的曲线如图所示:,故二元熵函数的曲线如图所示:11()loglog(1)log1pppHXppppp p1.01.00.50H(p)/bit二元熵函数曲线二元熵函数曲线等概时(等概时(p=0.5):随机变量具有最大的随机变量具有最大的不确定性不确定性,p=0,1时:时:随机变量的不确定性
12、随机变量的不确定性消失消失。计算机术语计算机术语VS信息单位:信息单位:“比特比特”每一个二元数字所能提供的最大平均信息量为每一个二元数字所能提供的最大平均信息量为1比特比特 符号等概分布的二元数字序列中,每一个二元数字将平均提供符号等概分布的二元数字序列中,每一个二元数字将平均提供1比比特特的信息量的信息量;符号非等概分布时,每一个二元数字所提供的平均信息;符号非等概分布时,每一个二元数字所提供的平均信息量总是小于量总是小于1比特比特XP(x)a1 a2 aNp1 p2 pNnNnnppClog1 证明:可参见朱雪龙证明:可参见朱雪龙应用信息论基础应用信息论基础P2412(,.,)nfppp
13、12(,.,)nfppp条件熵条件熵:理解:理解:观测观测Y以后,仍保留的关于以后,仍保留的关于X的不确定量。的不确定量。信道XY,1(|)(,)log(|)x yH X Yp x yp x y,1()(,)log(,)x yH XYp x yp x y)/()()/()()(YXHYHXYHXHXYH当X,Y相互独立时,有:(,)()()ijijp a bp ap b)()|()()|(jijijibpabpapbap于是有:)()|()()|()()()(YHXYHXHYXHYHXHXYH 理解理解:当随机变量相互独立时,其当随机变量相互独立时,其联合熵联合熵等于单个随机变量的熵之和,等于
14、单个随机变量的熵之和,而而条件熵条件熵等于无条件熵。等于无条件熵。)()|()()|()()()(YHXYHXHYXHYHXHXYH 理解:理解:表明一般情形下:条件熵总是小于无条件熵。表明一般情形下:条件熵总是小于无条件熵。注意:注意:这是平均意义上的这是平均意义上的xpXqXpExqxpxpqpD)()(log()()(log()()|(为概率分布函数为概率分布函数关于关于的的“相对相对”熵。熵。0)|(qpD意义:如果意义:如果p(x)看作系统本身的概率分布看作系统本身的概率分布,q(x)看做看做人们对系统进行估计得到的经验概率分布,则相对人们对系统进行估计得到的经验概率分布,则相对熵反
15、映了由于逼近误差引起的信息量的丢失。熵反映了由于逼近误差引起的信息量的丢失。图像配准)|()();(YXHXHYXI )|()();(XYHYHXYI );(YXI);(XYI);(YXI);(XYI证明略。一般情况下:)(),(min();(0YHXHYXI理解:理解:了解一事物总对另一事物的了解有所帮助了解一事物总对另一事物的了解有所帮助当随机变量当随机变量X和和Y之间有确定的关系时之间有确定的关系时1、X可以唯一确定可以唯一确定Y,此时:此时:0)|(XYH故:故:)();(YHYXI 2、Y 可以唯一确定可以唯一确定X,此时:此时:0)|(YXH故:故:)();(XHYXI);(XYI
16、是对对X和和Y之间之间统计依存程度统计依存程度的信息量度的信息量度)(log)(1Iiiiapap)|()();(YXHXHYXI11(,)log(|)IJijijijp a bp a b11(,)log()IJijiijp a bp a 11(,)(,)log()IJijijijjp a bp a bp b11(,)(,)log()()IJijijijijp a bp a bp a p b另一种定义:另一种定义:11()(,);()(,)JIiijjijjip ap a bp bp a b这里:这里:(,)()(|)()(|)ijijijijp a bp ap bap bp ab(,)()(
17、|)ijijip a bp a p ba(,)()(|)()()()()ijijiijijp a bp a p bap a p bp a p b变换变换得到互信息的另一种表达式:得到互信息的另一种表达式:I(X;Y)是随机变量)是随机变量X的的概率矢量概率矢量p 和和条件概率矩阵条件概率矩阵Q的函数的函数11(|)(|)(,)()(|)jijiIIijijiiip bap bap a bp a p ba(;)I X Y11(,)(,)log()()IJijijijijp a bp a bp a p b111(|)()(|)log()(|)IJjiijiIijijiip bap a p bap
18、a p ba(;)I P Q(|)(|)jijip baq ba有的情况下也把写为问题引出:问题引出:在通信系统中,人们往往对接收到的数据进行信息处在通信系统中,人们往往对接收到的数据进行信息处理和分析,然而,很多处理模式因为缺少正确的抉择,理和分析,然而,很多处理模式因为缺少正确的抉择,而导致信息量的丢失或增加了对原始数据的干扰。下而导致信息量的丢失或增加了对原始数据的干扰。下面我们从信息论的角度加以分析。面我们从信息论的角度加以分析。定义:定义:假设随机变量假设随机变量X,Y,Z的取值空间是由有限个离散点组成,的取值空间是由有限个离散点组成,定义两个随机变量定义两个随机变量X、Y与与Z的互
19、信息为:的互信息为:,(,)(,;)(,)log(,)()ijkijki j kijkp a bcI X Y Zp a bcp a bp c,(|,)(,)log()kijijki j kkp ca bp a bcp c链式法则与信息处理链式法则与信息处理(,;)()(|,)I X Y ZH ZH ZX Y,(|,)(,)log(|,)ijkkiji j kH ZX Yp a bcp ca b 即:即:引理:引理:(,;)(;)I X Y ZI Y Z链式法则与信息处理链式法则与信息处理,(,;)(;)(|,)(,)log(|)(|,)(,)(|,)log)(|)(,)(|,)|(|)0kij
20、ijki j kkjkijijkiji jkkjijkijkji jI X Y ZI Y Zp ca bp a bcp cbp ca bp a bp ca bp cbp a bD p ca bp cb请自己看证明(,;)(;)I X Y ZI X Z同理可证:同理可证:链式法则与信息处理链式法则与信息处理讨论:讨论:上述不等式成立的条件为:对任意的,ijka bc当(,)0ijkp a bc时,有:(|,)(|)kijkjp ca bp cb这表明:如果是一马尔科夫链,则等号成立。XYZ如果是一马尔科夫链;XYZ则也是一马尔科夫链。ZYX链式法则与信息处理链式法则与信息处理(;)(,;)(;)
21、;I X ZI X Y ZI Y Z链式法则与信息处理链式法则与信息处理设是一马尔科夫链;XYZ则(;)min(;),(;)I X ZI X YI Y Z定理:定理:证明:引理部分可得,(;)(,;)I X ZI X Y Z因因是一马尔科夫链;XYZ又利用又利用是马尔科夫链;ZYX利用引理可得利用引理可得(;)(,;)(;)(;)I Z XI Z Y XI Y XI X Y链式法则与信息处理链式法则与信息处理所以:(;)min(;),(;)I X ZI X YI Y Z上述定理表明:对一个信息处理系统,如果系统数据处理过程可用一马尔科夫链进行描述,那么每增加一次处理,系统信息量是递减的。从另一
22、个角度讲,系统每增加一次处理,数据特征的不确定性是递减的,确定性是递增的。多个随机变量下的互信息多个随机变量下的互信息(;,)()(|,)(,)(,|)I X Y ZH XH XY ZH Y ZH Y ZX(;,)()(,)(,)I X Y ZH XH Y ZH X Y Z,(;|)(|)(|,)(,|)(,)log(|)(|)(|)(|,)?ijkijki j kikjkI X YZH XZH XY Zp a bcp a bcp acp bcH YZH YX Z(作业)(;)?I X Y Z本部分内容学生自己推导,本部分内容学生自己推导,作业。作业。I(p;Q)pp信道PXY1Y2Y(|)p
展开阅读全文