1、第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.1 离散无记忆信源离散无记忆信源 2.2 自信息和熵自信息和熵 2.3 熵函数的性质熵函数的性质 2.4 联合事件的熵及其关系联合事件的熵及其关系 2.5 连续信源的信息测度连续信源的信息测度 习题习题2 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 信息理论的研究对象是以各类信息的获取、表示、传输和处理为目的的信息系统。图2-1给出了一个典型的通信系统物理模型。在这样的通信系统中,一个贯穿始终的、最基本的问题便是信息,即信源输出的是信息,在系统中传输的是信息,接
2、收者获得的也是信息。可见,在信息理论的学习和研究中,首先需要对信息给出一个明确的、可以度量的工程概念。本章我们从离散无记忆信源的统计特性入手,给出信息理论中的基本概念信息熵,讨论信源信息熵的基本性质。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 图2-1 通信系统物理模型 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.1 离散无记忆信源离散无记忆信源1.信源的概念信源的概念信源是信息的来源,以输出符号(消息)的形式输出信息(见图2-2)。由于我们关心的是信源输出的信息,因此信源研究的主要对象是载荷信息的消息,而对信源内部的结构和输出消息的机理一般不需要作深入了解。此
3、处我们从最简单的信源入手,讨论信源的描述和主要类型,建立离散无记忆信源的数学模型。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 图2-2 信源模型 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由于信源输出的消息载荷着信息,因此这种消息所具有的一个基本的属性便是随机性。正如绪论中所述,通信过程中收信者在收到消息之前,对信源发出的消息是不确定的。例如,掷一个均匀的骰子。虽然我们知道骰子上的数字只能有1、2、3、4、5、6,即投掷骰子所得到的消息的集合中只有这六种消息,但是骰子稳定之前我们并不知道骰子将呈现出哪一种消息。因此,对于信源输出的这种随机出现的消息,需要用随机变量
4、加以表示。如果我们已知信源的消息集合(即样本空间或值域)和消息发生的概率分布,那么便可以使用由样本空间和它的概率分布所构成的概率空间来描述信源。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 设信源输出的消息X为随机变量,其样本空间(值域)为R。若在此值域上随机变量X的概率分布为P,则此信源可以表示为R,P或X,P,并将这种表示称为信源的概率空间。因此,信源可以用概率空间作为其数学模型。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.离散无记忆信源的概念离散无记忆信源的概念在本课程的教学中我们主要涉及数字信息系统中的信息传递。在这种数字信息系统中,信源输出消息是一个离散
5、随机变量或由离散随机变量构成的随机变量序列。本教材中我们主要以离散信源作为研究对象,讨论离散信源的信息概念与度量,以及离散信息系统中信息传递的特点与定量关系。这种考虑与目前以计算机和信息处理技术为手段的电子信息系统和通信系统的应用是相一致的。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 为了便于学习和理解信息理论中的基本概念和基本关系,我们首先从最简单的离散信源,即离散无记忆信源入手展开讨论。离散无记忆信源是最简单的离散信源,其主要特点是离散和无记忆。离散:信源可能输出的消息的种类是有限的或者是可数的。消息的样本空间R是一个离散集合。由于信源的每一次输出都是按照消息发生的概率输出R
6、中的一种消息,因此信源输出的消息可以用离散随机变量X表示。无记忆:不同的信源输出消息之间相互独立。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 对于离散无记忆信源,如果已知信源输出消息的取值集合:R=a1,a2,an和每一消息发生的概率:P(a1)=p1,P(a2)=p2,P(an)=pn第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 则该离散无记忆信源的概率空间为其中,每一消息发生的概率满足:(2.1)(2.2)1212.nnaaaX,Pppp10 1,2,1iniipinp第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 在上面给出的投掷骰子输出消息的随机试验
7、中,每次试验的结果必然是1、2、3、4、5、6六种不同消息中的一个,并且每一次试验中出现哪一种消息是随机的,但是必定出现其中某一种消息,并且两次不同投掷所出现的消息之间没有关联。如果这颗骰子是均匀的,则由大量的试验可以知道,这个信源的六种消息发生的概率均等,即分别为1/6。因此,这样的信源是一个离散无记忆信源,其概率空间为12.111.666naaaX,P第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.2 自信息和熵自信息和熵在狭义的通信系统的讨论中,我们把信源看做一个输出消息和消息序列的设备。2.1节我们根据信源输出消息所具有的随机性关系,从信源的外部特性给出了信源的描述方法,
8、即信源的概率空间。然而,信源的基本功能和作用是输出信息,从本质上讲,信源是一个产生并输出信息的设备,消息仅仅是信源所输出的信息的载体。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 因此,对于信源我们更感兴趣的是它输出的消息中含有多少信息,它输出信息的能力有多大。因此,只有透过信源的外部表现消息及消息的概率空间,研究信源的信息特性,我们才能掌握信源的本质,并在信息的输出、传输和接收过程中对信息给出定量的理论分析。下面我们将从信息的基本属性出发,分析和度量信源的信息特性。首先,我们以离散无记忆信源为对象,引出自信息和熵的定义与度量,并对信息理论中最重要的基本概念熵的物理含义和数学性质进
9、行深入分析。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.2.1 自信息自信息观察一个由n种符号构成的离散无记忆信源:1212.nnaaaX,Pppp第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由于信源按照符号发生的概率随机地输出消息,因此在信源输出消息之前,我们不能够确定信源将要输出的是哪一个消息,即收信者对信源的输出具有不确定性。只有当信源输出某一消息且这个消息在无干扰通信系统中传输并被收信者收到后,收信者才能消除这种不确定性。由香农关于信息的定义可知,这种能够消除不确定性的东西就是信息。由此还可进一步看出,如果某一消息发生的不确定性大,则一旦它发生并被接收到
10、,收信者消除的不确定性就大,从该消息获得的信息量也就多。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 因此,信源输出消息所载荷的信息量的大小与该消息发生的不确定性的大小相联系。由于信源输出的消息ai依据概率P(ai)发生,因此ai是否发生的不确定性便与其发生的概率P(ai)有关。可以看出,消息ai发生所含有的信息量I(ai)应当是ai发生的先验概率P(ai)=pi的函数,即I(ai)=fP(ai)=fpi(2.3)第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由于这种函数关系反映的是信源输出某种消息时该消息所载荷的信息量,因此称I(ai)为信源输出消息ai,消息ai所载
11、荷的自信息。显然,函数fP(ai)应当满足下面四个条件。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵(1)fP(ai)是P(ai)的单调函数。消息发生的信息量是消息发生不确定性的度量。如果消息发生的概率小,则我们对该消息是否会发生的不确定性就大(难以猜测),该消息一旦发生,它所含有的信息量也就大;反之,若消息发生的概率大,则猜测它发生的可能性就大而不确定性小。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 因此,作为度量消息不确定性的函数,I(ai)应当是P(ai)的单调减函数。这一要求与日常生活中的情况也是相符合的。例如新闻发布两种消息,A:某地区下了暴雨;B:某地区下
12、了百年不遇的特大暴雨。显然,人们对A、B两种消息的关注或震惊程度有很大差异。由于消息B发生的可能性很小,因此它的发生使人们得到的信息量要比消息A的信息量大得多。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵(2)当P(ai)=1时,fP(ai)=0。对于发生概率为1的必然事件,在其发生前已可确知,不存在不确定性。因此,发生概率为1的必然事件所含有的信息量也就为0。(3)当P(ai)0时,fP(ai)。对于几乎不可能发生的事件,一旦它意外地发生了,就会带来极大的信息量。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵(4)信息的度量应当具有可加性。在收到信源发出的数个相互独立的
13、消息时,收信者所获得的信息量应为各消息所含有的信息量之和。依据信息度量的函数关系和应当满足的四个条件,我们可以很容易地确定这一函数关系能够取对数形式。下面我们给出信源消息所含自信息的定义。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 设离散信源X为 如果消息ai已发生,则该消息发生所含有的自信息定义为(2.4)1212.nnaaaX,Pppp11()loglog()iiiI aP ap第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 可以很容易地证明,自信息的定义满足上面提出的四个要求。说明:(1)此自信息的定义是根据消息发生的概率建立的一个工程定义,而不是根据这个消息对人
14、的实际意义而建立的定义。这一纯粹技术性的定义仅仅抓住了“信息”一词在通常概念中所包含的丰富内容的一小部分。(2)自信息I(ai)有两种含义:在消息ai发生之前,自信息I(ai)表示ai发生的不确定性;在消息ai发生以后,自信息I(ai)表示ai所含有的(或提供的)信息量。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵(3)在式(2.4)中关于对数的底未作明确规定。这是因为对数的底仅仅影响到度量的单位,实际中可根据具体情况和习惯来确定。如果取对数的底为2,则所得信息量的单位为比特(bit,binary unit),此时logx用lbx表示。如果取对数的底为e,则所得信息量的单位为奈特(
15、nat,nature unit),此时logex用lnx表示。如果取对数的底为10,则所得信息量的单位为哈特(Hart,Hartley),此时log10 x用lgx表示。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵(2.5)本书一般采用底为2的对数表示,并简写为log,此类情况全书不再说明(仅在强调或部分定理证明和公式推理中有特别注明时采用其他对数底)。根据对数的换底公式:可以得到不同底数时信息量的换算关系:logloglogbabXXa比特哈特比特奈特322.31443.11第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 (4)在上面的讨论中,消息ai是随机变量X的一个
16、样值,因而消息ai的自信息I(ai)=I(X=ai)是随机变量X的函数,因此I(ai)也是一个随机变量。I(ai)是一个随机变量并不难理解。因为ai发生可以使收信者获得大小为I(ai)的自信息,然而在信源未发出消息之前,收信者不仅对ai是否发生具有不确定性,而且对于能够获得多少自信息也是不确定的。因此,伴随着X=ai的随机发生而发生的自信息I(ai)是一个随机变量,并且与随机变量X具有相同的概率分布,即自信息I(ai)是一个发生概率为P(X=ai)的随机变量。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵【例例2.1】有一个输出两种消息的离散无记忆信源,其概率空间为如果在信源输出消息
17、之前我们猜测a1或a2发生,显然这两种猜测的困难程度不同。由于a1发生的概率接近于1,即a1发生的可能性很大,因此我们对a1是否发生的不确定性将比较小。同理,因为a2发生的可能性小,所以对a2是否会发生的不确定性就比较大。12,0.990.01aaX P第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由定义式(2.4)计算消息a1、a2的自信息,可以得到:可见,自信息I(a1)、I(a2)确实是关于a1、a2发生的不确定性的度量。1221()loglog 0.990.0140.99I a 比特2221()loglog 0.016.6440.01I a 比特第第2章章 离散无记忆信源与
18、信息熵离散无记忆信源与信息熵 如果已知信源输出消息a1,则由“a1已发生”可使我们消除大小为I(a1)的不确定性,故a1发生了载荷大小为0.014比特的信息量。同理,如果a2发生,则它所包含的信息量为6.644 比特。通过这个例子我们可进一步明确自信息的两种含义,即在信源输出消息ai之前,自信息I(ai)是关于ai发生的不确定性的度量,而在信源输出消息ai之后,自信息I(ai)表示ai所含有的信息量。例2.1中的信源只有两种不同的消息,我们称这类信源为二进制离散信源。二进制离散信源所具有的两种消息可以分别使用二进制数0和1表示。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵【例例2.
19、2】在一个抛硬币的随机试验中,正反两面出现的概率相等。如果将正、反两面分别看做0和1两种不同的消息,则这一随机试验可表示为一个等概率输出0或1的二进制离散无记忆信源。此二进制离散无记忆信源的概率空间为 在这一随机实验中,可以求出消息0、1发生所包含的自信息为01,1122X P1(0)(1)loglog211/2I XI X比特第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由于消息0和1发生的概率相同,因此在信源输出消息之前,我们关于信源输出0或1的不确定性是相同的,而在信源输出0或1之后,它们所携带的信息量也相同。因此,消息0和消息1的自信息相同(均为1比特)。应当注意:信息单位
20、的“比特”与计算机术语中的“比特”的意义是不同的。在计算机技术中,比特表示二进制数码中的“位”,为binary digit的缩写,而信息理论中的比特是使用以2为底的对数关系进行信息度量时的信息单位。在例2.2中,由于信源是等概率的二进制信源,因此在用以2为底的对数关系对其输出信息量进行度量时,它所输出的每一位二进制码所含有的自信息量恰为一个比特。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.2.2 信源的信息熵信源的信息熵式(2.4)定义的自信息给出了信源输出的某一个消息所含有的信息量。自信息从信源输出的每一个消息所含有的信息量描述了信源的信息特性。然而,自信息是一个伴随着信源
21、随机地输出某一消息而产生的随机变量。由于不同消息的自信息不同,因此自信息只是从局部依消息发生的概率对个别信源消息的信息特性给出的一种描述。在实际信息系统分析中,人们往往关心的并不是信源输出的个别消息,而是由整个消息集合所构成的信源的信息特性。因此我们需要给出一个确定的量,能够从信源总体上来度量信源输出信息的大小,描述信源总体输出信息的能力。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 为此,我们定义信源X中每一消息所包含自信息的数学期望为信源X的平均信息量,也称为信源的信息熵(简称熵),记做H(X),即对于概率空间为的离散无记忆信源X,其平均信息量(即信源的信息熵)为(2.6)12
22、12.nnaaaX,Pppp 1111()log loglogiinniiiiiiH XE I aEppppp 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 在下面的讨论中,有时将熵的定义式写做:这时,X也表示信源X的消息所构成的集合;x为集合中的某一消息,即X的某一取值;表示对X的全空间进行求和运算。(2.7)1()()log()XH Xp xp xX第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 说明:(1)在定义式(2.6)中,关于对数的底我们并未作明确规定。应用中可根据实际情况和习惯确定对数的底,如以2、e、10等为底数。由于熵是信源的平均信息量,因此相应于底2、
23、e或10,熵的单位分别为比特/符号、奈特/符号或哈特/符号。(2)对于一般的信源X,其消息集合中可能包含不可能发生的消息(即该消息发生的概率为0)。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 根据 若消息ak发生的概率为0,在定义式(2.7)表示的熵的计算中,规定0002log111limloglimlimloge0zzzzzzzzz1()log0()kkP aP a第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 【例例2.3】某班下午的工作安排有三种情况:a自习,b上课,c文体活动。假设每天下午独立地、随机地发出一个工作安排的通知,且这三种安排发生的概率分别是1/2、
24、3/8和1/8。若某同学得到了工作安排为a、b或c的一个通知,则此通知中含有多少信息量?如果每天发出一个通知,则一个通知中含有的平均信息量为多少?第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 解:此信源的概率空间为可以求出这三种安排的通知含有的自信息分别为131288,abcX P()log21I a 比特8()log1.4153I b 比特()log83I c 比特第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 一个通知中含有的平均信息量即为此信源的熵:根据自信息的定义,自信息量的大小与消息发生的概率成反比,此处便有:I(a)I(b)0(2.15)证明:构造辅助函数f(
25、x)=lnx(x1),计算其极大值。令上式为0,可以求出f(x)在x=1处取得极值。由可知,当x0时,f(x)是上凸函数。1()1fxx21()0fxx 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 因此,在x=1处函数f(x)有极大值,f(x)的极大值为f(x=1)=0因此f(x)=lnx(x1)0 x0即lnx0,由式(2.15)可知因此证毕。1111111ln(1)0ln2ln2ln2nnnniiiiiiiiiiiirrpprppp121(,)lognniiiH p pppr 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 在式(2.16)中,若令,则式(2.16)
26、成为:此即式(2.14)表示的最大熵定理。(2.17)1irn121(,)loglognniiH p ppnpn第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 最大熵定理表明,对于一个输出n种消息的信源,在其可能的概率分布中,当信源输出的消息为等概率分布时,信源的信息熵最大,且该最大的信息熵为logn。对于二进制信源,例2.4已经表明,当p(0)=p(1)=1/2时信源的信息熵最大,即二进制信源的最大熵为比特/符号1 1()log212 2H,第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 7.上凸性上凸性熵函数H(p1,p2,pn)是概率矢量P=(p1,p2,pn)的上凸
27、函数,即对于概率矢量P、Q和(01),有:(2.18)(1)()(1)()HHHPQPQ第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 证明:设K为n维随机变量的概率分布构成的集合。在K中任意找出两组不同的概率分布:P=(p1,p2,pn)Q=(q1,q2,qn)显然,这两组概率分布满足概率分布律,即111 0,1,1,2,nniiiiiipqp qin第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 在这两组概率分布下,分别有熵函数H(P)和H(Q)。取00,P(yj)0 i=1,2,r;j=1,2,s条件概率分布满足:110(|),(|)1(|)1,(|)1jiijsrj
28、iijjiP yxP xyP yxP xy1,2,;1,2,ir js第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.4.2 联合熵、无条件熵和条件熵联合熵、无条件熵和条件熵对于由X、Y组成的联合事件,由于(X,Y)是一个随机矢量,因此我们对联合事件(X,Y)的某一样值是否发生具有不确定性。联合事件(X,Y)的平均不确定性大小可以用联合事件(X,Y)的联合熵进行度量。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 若已知联合事件(X,Y)的概率空间为XY,P(xi,yj),则联合事件(X,Y)的联合熵为(2.28)11111()(,)log(,)(,)log(,)rsi
29、jijijrsijijijH XYP x yP x yP x yP x y 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 若已知某一随机变量的边缘概率分布,则根据熵的定义式(2.6)可以写出联合事件(X,Y)中关于某一随机变量的熵,即(2.29)(2.30)111()()log()(,)log()rrsiiijiiijH XP xP xP x yP x 111()()log()(,)log()srsjjijjjijH YP yP yP x yP y 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 HX和HY分别表示联合事件(X,Y)中关于随机变量X和Y的平均不确定性,它们
30、被称为无条件熵或边缘熵。对于由多个随机变量组成的联合事件,我们不仅要了解它们的联合不确定性和某一分量的不确定性,还需要了解在某些随机变量已出现的条件下,关于另一随机变量的不确定性。这种平均不确定性即为条件熵。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 设已知联合事件(X,Y)中xi已发生时yj发生的概率为条件概率P(yj|xi),则定义已知X时关于Y的条件熵为它表示在随机变量X已知时,我们对于随机变量Y仍存在的平均不确定性。同理,已知Y时关于X的条件熵为(2.31)(2.32)111(|)(,)log(|)rsijijjiH Y XP x yP yx111(|)(,)log(|)
31、rsijijijH X YP x yP xy第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.4.3 各种熵之间的关系各种熵之间的关系1.条件熵条件熵条件熵满足如下性质:H(Y|X)H(Y)(2.33)当且仅当X与Y统计独立时等式成立。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 证明:111111111()()(,)log(,)log(|)()()()(,)log(|)()()()(,)log(,)rssijijijjjijrsjiijijjiirsijijijijH Y XH YP x yP x yP yxP yP yP xP x yP yxP xP xP yP x
32、 yP x y第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由于对数函数是上凸函数,因此应用颜森不等式:当X、Y统计独立时:P(xi,yj)=P(xi)P(yj)由式(2.34)第三步可看出等式成立。111111()()()()(,)loglog(,)(,)(,)log()()log10rsrsijijijijijijijijrsijijP xP yp xp yP x yp x yP x yp x yp xp y第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 同理,存在:H(X|Y)H(X)此性质表明,在联合事件中某一随机变量的条件熵是有界的,它小于等于该随机变量的无条件
33、熵。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.联合熵、无条件熵和条件熵的关系联合熵、无条件熵和条件熵的关系111111111()(,)log(,)1(,)log(|)()11(,)log(,)log(|)()rsijijijrsijijjiirsrsijijijijjiiH XYP x yP x yP x yP yxP xP x yP x yP yxP x(2.35)第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 所以H(XY)=H(Y|X)+H(X)(2.36)可见,关于联合事件(X,Y)的不确定性等于关于X的不确定性与一旦观测到X之后仍然保留的关于Y的不确定性
34、之和。同理,可得到:H(XY)=H(X|Y)+H(Y)(2.37)第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 若联合事件(X,Y)中各分量相互独立,又由于P(yj|xi)=P(yj),则(2.38)11111()(,)log(|)1(,)log()()rsijijjirsijijjH Y XP x yP yxP x yH YP y第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 同理,依据P(xi|yj)=P(xi)有:H(X|Y)=H(X)(2.39)因此,若联合事件(X,Y)中各分量相互独立,则它们的联合熵为H(XY)=H(X)+H(Y)(2.40)第第2章章 离散无
35、记忆信源与信息熵离散无记忆信源与信息熵 【例例2.6】已知随机变量X和Y组成联合事件(X,Y)。二维随机变量(X,Y)的联合概率分布如表2-1所示。(1)计算联合事件(X,Y)的联合熵H(XY);(2)计算随机变量X和Y的边缘熵H(X)和H(Y);(3)计算条件熵H(Y|X)和H(X|Y);(4)验证联合熵与边缘熵、条件熵之间的关系。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 表2-1 P(xi,yj)第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 解:(1)依据联合事件(X,Y)的联合概率分布计算(X,Y)的联合熵H(XY)为43111(),log,53316563l
36、og8log16loglog8log16log38161638161656334log33.078 /81616 ijijijH XYP x yP x y 比特 符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 (2)依据边缘概率的计算关系,首先求出随机变量X的边缘概率为311j=1322j=1333j=1344j=1111(),0884111(),0161681113(),8888311(),16164jjjjP xP x yP xP xyP xP xyP xP xy第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 因此随机变量X的边缘熵H(X)为 4i=11()log1
37、1381 log4log8loglog44883453 log31.906 28iiH XP xP x/比特 符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 同理,可以求出随机变量Y的边缘概率和边缘熵H(Y):411i=1422i=1433i=111131(),81681621111(),0168164111(),00884iiiP yP x yP yP x yP yP x y第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 计算得到随机变量Y的边缘熵为3j=11()log111log2log4log41.5/244jjH YP yP y比特 符号第第2章章 离散无记忆信
38、源与信息熵离散无记忆信源与信息熵 (3)已知联合事件(X,Y)的联合概率P(xi,yj)和随机变量X的边缘概率P(xi)。依据条件概率的计算关系,可以求出在已知X=xi发生的条件下关于Y=yj发生的条件概率分布P(yj|xi),其中i=1,2,3,4,j=1,2,3,如表2-2所示。(,)(|)()ijjiiP x yP yxP x第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 表2-2 P(yj|xi)第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 可以求出已知X时关于Y的条件熵为43111(|),log|11111 log2log2log2log2log38816168
39、11341 log3log3loglog4881631673 log31.172 /816ijijjiH Y XP x yP yx比特 符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 同理,依据可以得到已知Y=yj发生的条件下,关于X=xi发生的条件概率分布P(xi|yj)(如表2-3所示)。(,)(|)()ijijjP x yP xyP y第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 表2-3 P(xi|yj)第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 可以求出已知X时关于Y的条件熵为43111(|),log|11111 log4log2log8log
40、4log4881616811381 log2log2loglog48816316153 log31.578 /816ijijijH X YP x yP xy比特 符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 (4)由上述计算结果可以验证联合熵、边缘熵和条件熵之间满足的关系。下面验证某一随机变量的无条件熵与条件熵的关系。由计算结果可以看出,在联合事件(X,Y)中,关于随机变量X的边缘熵为4311()(,)log()1.906ijiijH XP x yP x/比特 符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 当已知随机变量Y时,关于随机变量X的条件熵为显然,随机变
41、量X的条件熵与其无条件熵的关系满足:H(X|Y)H(X)43111(|),log1.578|ijijijH X YP x yP xy/比特 符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 同理,随机变量Y的条件熵与其无条件熵的关系也满足:H(Y|X)H(Y)由此可以看出,对于联合事件(X,Y),某一随机变量的条件熵小于等于该随机变量的无条件熵。下面由计算结果验证边缘熵、条件熵和联合熵之间的关系。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由此例计算得到的联合事件(X,Y)的边缘熵:H(X)=1.906 比特/符号,H(Y)=1.5 比特/符号条件熵:H(Y|X)=1
42、.172 比特/符号,H(X|Y)=1.578 比特/符号 联合熵:H(XY)=3.078 比特/符号第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 可以看出,它们之间满足:H(X)+H(Y|X)=1.906+1.172=3.078=H(XY)和H(Y)+H(X|Y)=1.5+1.578=3.078=H(XY)即联合事件(X,Y)的不确定性(联合事件的联合熵H(XY))等于关于某一随机变量的不确定性与一旦观测到该随机变量后仍然保留的关于另一随机变量的不确定性之和。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.5 连续信源的信息测度连续信源的信息测度至此,我们所研究的都
43、是取值为有限或可数的离散信源,它们输出的消息属于时间离散、取值有限或可数的随机序列,其统计特性可以用联合概率分布来描述,而某些实际信源的输出是时间和取值都是连续的消息。例如语音信号X(t)、电视信号X(x0,y0,t)等都是时间的连续波形。当固定某一时刻t=t0时,它们的可能取值也是连续的。这样的信源称为随机波形信源。随机波形信源输出的消息是随机的,因此,可以用随机过程x(t)来描述。第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 2.5.1 连续信源的差熵连续信源的差熵基本连续信源的输出是取值连续的单个随机变量,可用变量的概率密度、变量间的条件概率密度和联合概率密度来描述。变量的一
44、维概率密度函数为d()()=dXF xpxxd()()=dYF ypyy第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 一维概率分布函数为 条件概率密度函数为pY|X(y|x),pX|Y(x|y)联合概率密度函数为111()=()dxXF xP Xxpx x2111111(,)()XYF x ypx yx y 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 它们之间的关系为(2.42)(2.41)|()()(|)XYXY Xpxypx py x|()()(|)XYYX Ypxypy px y第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 这些边缘概率密度函数满足:
45、其中,X和Y的取值域为全实数集R。()()dxXYpxpxyyR(2.44)(2.43)()()dyXYpxpxyyR第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 若概率密度在有限区域内分布,则可认为在该区间之外所有概率密度函数为零。上述密度函数中的脚标表示所牵涉的变量的总体,而自变量(如x,y,)则是具体取值。因为概率密度函数是不同的函数,所以用脚标来加以区分,以免混淆。为了简化书写,往往省去脚标,但在使用时要注意上述问题。基本连续信源的数学模型为()Xp xR第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 并满足:其中,R是全实数集,是连续变量X的取值范围。根据前述的
46、离散化原则,连续变量X可量化分层后用离散变量描述。量化单位越小,则所得的离散变量和连续变量越接近。因此,连续变量的信息测度可以用离散变量的信息测度来逼近。假定连续信源X的概率密度函数p(x)如图2-4所示。()d1p x x R第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 图2-4 概率密度分布 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 我们把取值区间a,b分割成n个小区间,各小区间设有等宽。那么,X处于第i区间的概率Pi是(2.45)()ban(1)(1)()d()(1,2,.,)ia iiaiPP aixaip xxp xin第第2章章 离散无记忆信源与信息熵离
47、散无记忆信源与信息熵 其中,xi是a+(i1)到a+i之间的某一值。当p(x)是x的连续函数时,由积分中值定理可知,必存在一个xi值使式(2.45)成立。这样,连续变量X就可用取值为xi(i=1,2,n)的离散变量Xn来近似,连续信源X就被量化成离散信源:第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 且 1212()()()nnnxxxXp xp xp xP(1)11()()d()d1nna ibiaiaiip xp xxp xx第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 这时离散信源Xn的熵是()log()log()()log()()logniiiiiiiiiiiH
48、 XPPp xp xp xp xp x 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 当n,0时,离散随机变量Xn趋于连续随机变量X,而离散信源Xn的熵H(Xn)的极限值就是连续信源的信息熵,即(2.46)000()lim()lim()log()lim(log)()()log()dlimlognniiiiibaH XH Xp xp xp xp xp xx 第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 一般情况下,式(2.46)的第一项是定值。当0时,第二项是趋于无限大的常数。所以避开第二项,定义连续信源的熵为(2.47)()()log()dh Xp xp xx R第第2
49、章章 离散无记忆信源与信息熵离散无记忆信源与信息熵 由式(2.47)可知,所定义的连续信源的熵并不是实际信源输出的绝对熵,而连续信源的绝对熵应该还要加上一项无限大的常数项。这一点是可以理解的,因为连续信源的可能取值数是无限多个,若设取值是等概率分布,那么信源的不确定性为无限大。当确知输出为某值后,所获得的信息量也将为无限大。可见,h(X)已不能代表信源的平均不确定性大小,也不能代表连续信源输出的信息量。既然如此,为什么要定义连续信源的熵为式(2.47)呢?一方面,因为这样定义可与离散信源的熵在形式上统一起来,另一方面,因为在实际问题中常常讨论的是熵之间的差值问题,如平均互信息。第第2章章 离散
50、无记忆信源与信息熵离散无记忆信源与信息熵 在讨论熵差时,无限大常数项将有两项,一项为正,一项为负,只要两者离散逼近时所取的间隔一致,这两个无限大项就将互相抵消掉。因此在任何包含有熵差的问题中,式(2.47)定义的连续信源的熵具有信息的特性。由此可见,连续信源的熵称为差熵,以区别于原来的绝对熵。同理,我们可以定义两个连续变量X、Y的联合熵和条件熵,即第第2章章 离散无记忆信源与信息熵离散无记忆信源与信息熵(2.48)(2.49)(2.50)()()log()d dh XYp xyp xyx y R(|)()(|)log(|)d dh Y Xp x p y xp y xx y R(|)()(|)l