信息论初步课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《信息论初步课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 信息论 初步 课件
- 资源描述:
-
1、统计机器学习与数据挖掘技术与方法研讨班讲义信息论初步Introduction to Information Theory陈 翀提要n最优编码n自信息n熵n联合熵、条件熵n互信息n交叉熵nKL-divergence信息论nShannon 与20世纪40年代提出在非理想的通信信道内如何传输最大量的信息,包括n数据压缩(与熵相关)n传输率(信道容量)信息量的度量n在TIM领域,信息论被用来解决海量存储(文本压缩编码)推测不确定性-熵解释随机变量及其分布的关系-互信息、KL距离。噪声信道信源接收方XX信息的度量n信息是个很抽象的概念。我们常常说信息很多,或者信息较少,但却很难说清楚信息到底有多少。比如
2、一本五十万字的中文书到底有多少信息量。直到 1948 年,香农提出了“信息熵”的概念,才解决了对信息的量化问题。n一条信息的信息量大小和它的不确定性有直接的关系。比如说,要搞清楚一件非常不确定的事,或是我们一无所知的事情,就需要了解大量的信息。相反,如果我们对某件事已经有了较多的了解,则不需要太多的信息就能把它搞清楚。从这个角度可认为,信息量的度量就等于不确定性的多少。n例子:冠军队预测信息论基本概念n编码长度:信源发出的不同信号在传输中需要用多长的编码传输,能够节省对信道的占用,并在接收方获得不歧义的信息nEntropy(熵):测量随机变量不确定性,反映混乱程度nMutual Informa
3、tion(互信息):测量两个随机变量的相关/相互依赖程度。解释当已知一个变量时能对减少另一个变量不确定性起到多大的贡献。nKullback-Leibler divergence:比较两个分布的差异1.最优编码1.最优编码1.最优编码2.自信息n一个信源可按某种概率发出若干不同的信号,每个信号带有的信息量称为其自信息。信源:随机变量;信号:随机变量的取值n基于定性分析,自信息的特性应当是非负递增n具有这样的特性的函数有很多,人们构造出如下定义式:n:随机变量X的某个取值;P(n):X取该值的概率3.熵n定义:设随机变量X,取值空间,为有限集合。X的分布密度为p(x),p(x)=P(X=x)xX,
4、则该随机变量的取值不确定程度,即其熵为:当使用log2时,熵的单位为比特反映一个信源发出不同信号,具有的平均信息量。2()()()log()0log00,loglogxH XH pp xp xall possible valuesDefine 3.熵n熵的基本性质:H(X)0,等号表明确定场(无随机性)的熵最小H(X)log|X|,等号表明等概场的熵最大。从编码压缩的角度解释:X的取值越随机,它的编码越难以压缩。1()0.5()01()0.80()1fair coin p HeadH Xbetweenandbiased coin p Headcompletely biased p Head以抛
5、硬币为例,匀质、非匀质、完全不匀质时,抛掷结果的不确定性如下:P(Head)H(X)1.03.熵3.熵3.熵3.熵n一本五十万字的中文书平均有多少信息量?我们知道常用的汉字(一级二级国标)大约有 7000 字。假如每个字等概率,那么我们大约需要 13 个比特(即 13 位二进制数)表示一个汉字。但汉字的使用是不平衡的。实际上,前 10%的汉字占文本的 95%以上。因此,即使不考虑上下文的相关性,而只考虑每个汉字的独立的概率,那么,每个汉字的信息熵大约也只有 8-9 个比特。如果我们再考虑上下文相关性,每个汉字的信息熵只有5比特左右。所以,一本五十万字的中文书,信息量大约是 250 万比特。如果
6、用一个好的算法压缩一下,整本书可以存成一个 320KB 的文件。如果我们直接用两字节的国标编码存储这本书,大约需要 1MB 大小,是压缩文件的三倍。这两个数量的差距,在信息论中称作“冗余度”(redundancy)。需要指出的是我们这里讲的 250 万比特是个平均数,同样长度的书,所含的信息量可以差很多。如果一本书重复的内容很多,它的信息量就小,冗余度就大。不同语言的冗余度差别很大,而汉语在所有语言中冗余度是相对小的。这和人们普遍的认识“汉语是最简洁的语言”是一致的。3.熵在TIM中的用途nFeature selection:If we use only a few words to clas
展开阅读全文