试论基于信息论的数据挖掘方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《试论基于信息论的数据挖掘方法课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 基于 信息论 数据 挖掘 方法 课件
- 资源描述:
-
1、1 1第九章 基于信息论的数据挖掘方法2 2基于信息论的数据挖掘方法?信息论基本原理?决策树方法3 3信息论原理Shannon信息论?信息论的创立?1948年Shannon首次提出?以数学方法度量并研究通信信号4 4信道模型?一个传递信息的系统是由发送端(信源)和接收端(信宿)以及连接两者的通道(信道)三者组成。?信源发出的符号U取值为u1,u2.ur,信宿接收的符号V取值为v1,v2.vq。信道u1,u2.ur信源Uv1,v2.vq信宿V5 5不确定性?在进行实际的通信之前,收信者(信宿)不可能确切了解信源究竟会发出什么样的具体信息,不可能判断信源会处于什么样的状态。这种情形称为信宿对于信源
2、状态具有不确定性。?这种不确定性是存在于通信之前的,因而又叫做先验不确定性,表示成信息熵 H(U)6不确定性?在进行了通信之后,信宿收到了信源发来的信息,这种先验不确定性才会被消除或者被减少。?如果干扰很小,不会对传递的信息产生任何影响,信源发出的信息能够被信宿全部收到,在这种情况下,信宿的先验不确定性就会被完全消除。?在一般情况下,干扰总会对信源发出的信息造成某种破坏,使信宿收到的信息不完全,先验不确定性不能全部被消除,只能部分地消除。?即,通信结束之后,信宿仍可能具有一定程度的不确定性,称为后验不确定性,表示成:条件熵 H(U/V)7 7互信息?后验不确定性总要小于或等于先验不确定性:H(
3、U/V)H(X)故信源Y比信源X的平均不确定性要大。XP Xaa().12099001YP Ybb().1205051414讨论?如果n种可能的发生都有相同的概率,即所有的ui有P(ui)=1/n,H(U)达到最大值log n,系统的不确定性最大。?P(ui)互相接近,H(U)就大。P(Ui)相差大,则H(U)就小。1515举例?假设有茄子、番茄、黄瓜三种蔬菜,先对某蔬菜进行分类。?不给人和描述时,可能是三种之一,不确定性大?给出是长型时,可能是茄子,黄瓜两种?给出是紫色时,只可能是茄子1616条件熵定义?如果信源X与随机变量Y不是相互独立的,那么用条件熵H(X|Y)来度量收信者在收到随机变量
4、Y之后,对随机变量X仍然存在的不确定性。设X对应信源符号ai,Y对应信源符号bj,p(ai|bj)为当Y为bj时X为ai的概率,则有11(|)()lg(|)rsijijijH X Yp abp ab=-?I可得()(|)()ijijjp abp abp b=?I由于11(|)()(|)lg(|)srjijijjiH X Yp bp a bp a b=-?1717平均互信息量定义?平均互信息量,也称信息论测度值表示信号Y所能提供的关于X的信息量的大小,用I(X,Y)表示(,)()(|)HX YHXHXY=-【说明】:信息论在决策树学习中具有非常重要的意义。在决策树学习方法中,最关键的问题就是如何
5、根据每个属性提供的信息量构造出一棵决策树,以此对整个实例空间进行合理的分类(划分)。18其他定义后验熵:当接收到输出符号V=vj后,信宿对于信源的平均不确定性。定义为:?=ijijijvuPvuPvUH)|(1log)|()|(1919信息论在决策树中的应用?设训练实例集为X,目的是将训练实例分为 n类。设属于第i类的训练实例个数是 Ci,X中总的训练实例个数为|X|,若记一个实例属于第 i类的概率为P(Ci),则()|iiCp CX=此时,决策树对划分C的不确定程度为:(,)()lg()iiH X Cp CP C=-?【注意】:在无混淆的情况下,习惯将H(X,C)简记为H(X)。2020基于
6、信息论的数据挖掘方法?信息论基本原理?决策树方法2121决策树的方法?基本概念?ID3的基本思想和算法?ID3算法举例?ID3算法的改进和讨论2222决策树的基本概念?A decision tree is a tree in which?Each branch node represents a choice?Each leaf node represents a classification or decision23节点?每一个节点表示对样本实例的某个属性值进行测试,该节点后相联接的各条路径上的值表示该属性的可能取值(二叉,三叉)HumidityPOutlookWindyNPTempNNN
7、NNSunnyOvercastRainHighNormalNotMediumVeryCoolMildHot24叶子?每个叶子产生一条规则,规则由根到该叶子的路径上所有节点的条件组成,规则的结论是叶子上标注的结论(决策,分类,判断)HumidityPOutlookWindyNPTempNNNNNSunnyOvercastRainHighNormalNotMediumVeryCoolMildHotIf outlook=Sunny then PlayGolf=yes25决策树所产生的规则?决策树代表实例属性值约束的合取的析取式。从树根到树叶的每一条路径对应一组属性测试的合取,树本身对应这些合取的析取
8、。HumidityPOutlookWindyNPTempNNNNNSunnyOvercastRainHighNormalNotMediumVeryCoolMildHot(outlook=sunny)V(outlook=overcast humidity=normal)2626举例1:银行贷款决定2727举例2:信用风险分析2828决策树的生成一(Building Tree)?基本思想:?用途:提取分类规则,进行分类预测判定树分类算法output训练集决策树input2929使用决策树进行分类?决策树?一个树型的结构?内部节点上选用一个属性进行分割?每个分叉都是分割的一个部分?叶子节点表示一个分
9、布?决策树生成算法分成两个步骤?树的生成?开始,数据都在根节点?递归的进行数据分片?树的修剪?去掉一些可能是噪音或者异常的数据?决策树使用:对未知数据进行分割?按照决策树上采用的分割属性逐层往下,直到一个叶子节点3030决策树算法?基本算法(贪心算法)?自上而下分而治之的方法?开始时,所有的数据都在根节点?属性都是种类字段(如果是连续的,将其离散化)?所有记录用所选属性递归的进行分割?属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)?停止分割的条件?一个节点上的数据都是属于同一个类别?没有属性可以再用于对数据进行分割3131伪代码(Building Tr
10、ee)Procedure BuildTree(S)用数据集S初始化根节点R用根结点R初始化队列QWhile Q is not Empty do 取出队列Q中的第一个节点NifN不纯(Pure)for 每一个属性 A估计该节点在A上的信息增益选出最佳的属性,将 N分裂为N1、N23232属性选择的统计度量?信息增益Information gain(ID3/C4.5)?所有属性假设都是种类字段?经过修改之后可以适用于数值字段?基尼指数Gini index(IBM IntelligentMiner)?能够适用于种类和数值字段3333ID3基本思想?ID3的思想?自顶向下构造决策树?从“哪一个属性将在
11、树的根节点被测试”开始?使用统计测试来确定每一个实例属性单独分类训练样例的能力?ID3的过程?分类能力最好的属性被选作树的根节点?根节点的每个可能值产生一个分支?训练样例排列到适当的分支?重复上面的过程直到所有训练样本使用完毕3434用于概念学习的ID3算法1.ID3(Examples,Target_attribute,Attributes)2.创建树的root节点3.如果Examples都为正,返回label=+的单节点树root4.如果Examples都为反,返回label=-的单节点树root5.如果Attributes为空,那么返回单节点root,label=Examples中最普遍的
12、Target_attribute值6.否则开始1.AAttributes中分类examples能力最好的属性2.root的决策属性A3.对于A的每个可能值vi1.在root下加一个新的分支对应测试 A=vi2.令Examplesvi 为Examples中满足A属性值为vi的子集3.如果Examplesvi 为空1.在这个新分支下加一个叶子节点,节点的label=Examples中最普遍的Target_attribute值2.否则在新分支下加一个子树ID3(Examplesvi,Target_attribute,Attributes-A)7.结束8.返回root3535重要问题:哪个属性作为当前
13、测试节点?构造好的决策树的关键在于如何选择好的逻辑判断或属性。对于同样一组例子,可以有很多决策树能符合这组例子。人们研究出,一般情况下或具有较大概率地说,树越小则树的预测能力越强。要构造尽可能小的决策树,关键在于选择恰当的逻辑判断或属性。由于构造最小的树是 NP-难问题,因此只能采取用启发式策略选择好的逻辑判断或属性。3636?对蔬菜分类?茄子,番茄,黄瓜?形状?长 vs.圆?颜色 不确定性为03737属性选择?最佳分类属性问题?信息增益(Information Gain)?用来衡量给定的属性区分训练样例的能力?ID3算法在增长树的每一步使用信息增益从候选属性中选择属性?用熵度量样例的均一性?
14、熵刻画了任意样例集的纯度3838熵的物理定义?A formula to calculate the homogeneity of a sample.?A completely homogeneous sample has entropy of 0.?An equally divided sample has entropy of 1.1122()()()()()()()rrH Xp a I ap aI ap a I a=?L1()lg()riiip ap a=-?3939决策树的学习过程?决策树学习过程就是使得决策树对划分的不确定程度逐渐减小的过程。大致过程如下:(1)选择测试属性a进行测试,
15、在得知a=aj的情况下,属于第i类的实例个数为Cij个。记p(Ci;a=aj)=Cij/|X|p(Ci;a=aj)为在测试属性a的取值为aj时它属于第i类的概率。此时决策树对分类的不确定程度就是训练实例集对属性X的条件熵。4040决策树的学习过程?可知属性a对于分类提供的信息量I(X;a)为:(2)信息量I(X;a)的值越大,说明选择测试属性a对于分类提供的信息量越大,选择属性a之后对分类的不确定程度越小。(3)依次类推,不断地计算剩余样本的条件熵及信息量,直至构造出完整的决策树。(;)()(|)IX aHXH Xa=-4141信息增益(Information GainInformation
16、Gain)?信息增益度量期望的熵降低?属性的信息增益,由于使用这个属性分割样例而导致的期望熵降低?Gain(S,A)是在知道属性A的值后可以节省的二进的值后可以节省的二进制位数?上式中:?S:目标概念的正负样本的集合?Sv:对某个属性v的的正负样本的子集?Entropy(Sv)是将S v中的样本划分到c个类的信息熵?Value(A):属性A所有可能取值的集合4242信息增益(Information GainInformation Gain)4343训练集PE、NE取子集建窗口窗口PE、NE生成决策树测试PE、NE扩展窗口PE=PE+PENE=NE+NE此决策树为最后结果存在错判的PE,NE吗是
17、否ID3主算法流程4444决策树的方法?基本概念?ID3的基本思想和算法?ID3算法举例?ID3算法的改进和讨论4545?小王是一家著名高尔夫俱乐部的经理。但是他被雇员数量问题搞得心情十分不好。某些天好像所有人都来玩高尔夫,以至于所有员工都忙的团团转还是应付不过来,而有些天不知道什么原因却一个人也不来,俱乐部为雇员数量浪费了不少资金。?小王的目的是通过下周天气预报寻找什么时候人们会打高尔夫,以适时调整雇员数量。因此首先他必须了解人们决定是否打球的原因。?在2周时间内我们得到以下记录:4646属性OutlookTemperature HumidityWindy 类1OvercastHotHigh
18、 Not N2OvercastHotHigh Very N3Overcast HotHighMedium N4SunnyHotHigh Not P5Sunny HotHighMedium P6RainMildHighNot N7RainMildHighMedium N8RainHotNormal Not P9Rain CoolNormal Medium N10RainHotNormal Very N11SunnyCoolNormal Very P12SunnyCoolNormal Medium P4747属性 OutlookTemperature Humidity Windy 类13Overc
19、astMildHighNot N14 OvercastMildHighMedium N15 OvercastCoolNormal Not P16OvercastCoolNormal Medium P17 RainMildNormal Not N18 RainMildNormal Medium N19 OvercastMildNormal Medium P20 OvercastMildNormal Very P21 SunnyMildHighVery p22 SunnyMildHighMedium P23 SunnyHotNormal Not P24 RainMildHighVery N4848
展开阅读全文