第八章:分类与预测-《数据挖掘与知识发现》-教学课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第八章:分类与预测-《数据挖掘与知识发现》-教学课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘与知识发现 第八 分类 预测 数据 挖掘 知识 发现 教学 课件
- 资源描述:
-
1、第八章:分类与预测n8.1 简介n8.2 决策树n8.3 贝叶斯分类n8.4 基于遗传算法分类n8.5 分类法的评估n8.6 预测n本章小结2003-11-11第八章:分类与预测n8.1 简介n8.2 决策树n8.3 贝叶斯分类n8.4 基于遗传算法分类n8.5 分类法的评估n8.6 预测n本章小结2003-11-12分类n分类的目的是提出一个分类函数或分类模型(即分类器),通过分类器将数据对象映射到某一个给定的类别中。n数据分类可以分为两步进行。n第一步建立模型,用于描述给定的数据集合。通过分析由属性描述的数据集合来建立反映数据集合特性的模型。这一步也称作有监督的学习,导出模型是基于训练数据
2、集的,训练数据集是已知类标记的数据对象。n第二步使用模型对数据对象进行分类。首先应该评估模型的分类准确度,如果模型准确度可以接受,就可以用它来对未知类标记的对象进行分类。2003-11-13决策树学习简介n决策树(Decision Tree)学习是以样本为基础的归纳学习方法。n决策树的表现形式是类似于流程图的树结构,在决策树的内部节点进行属性值测试,并根据属性值判断由该节点引出的分支,在决策树的叶节点得到结论。内部节点是属性或属性的集合,叶节点代表样本所属的类或类分布。n经由训练样本集产生一棵决策树后,为了对未知样本集分类,需要在决策树上测试未知样本的属性值。测试路径由根节点到某个叶节点,叶节
3、点代表的类就是该样本所属的类。2003-11-16决策树实例n关于PlayTennis的决策树如图所示:High Overcast Normal Strong Weak Sunny Rain Outlook Wind Humidity No Yes Yes No Yes 2003-11-17决策树学习的算法 n决策树学习的基本算法是贪心算法,采用自顶向下的递归方式构造决策树。nHunt等人于1966年提出的概念学习系统CLS是最早的决策树算法,以后的许多决策树算法都是对CLS算法的改进或由CLS衍生而来。nQuinlan于1979年提出了著名的ID3方法。以ID3为蓝本的C4.5是一个能处理连
4、续属性的算法。n其他决策树方法还有ID3的增量版本ID4和ID5等。n强调在数据挖掘中有伸缩性的决策树算法有SLIQ、SPRINT、RainForest算法等。2003-11-18ID3算法 n算法 Decision_Tree(samples,attribute_list)n输入 由离散值属性描述的训练样本集samples;候选属性集合atrribute_list。n输出 一棵决策树。n方法 n(1)创建节点N;n(2)if samples 都在同一类C中 then n(3)返回N作为叶节点,以类C标记;n(4)if attribute_list为空 then 2003-11-19ID3算法(
5、续)n(5)返回N作为叶节点,以samples中最普遍的类标记;/多数表决 n(6)选择attribute_list中具有最高信息增益的属性test_attribute;n(7)以test_attribute标记节点N;n(8)for each test_attribute的已知值v /划分samples n(9)由节点N分出一个对应test_attribute=v的分支;n(10)令Sv为samples中test_attribute=v的样本集合;/一个划分块 n(11)if Sv为空 then n(12)加上一个叶节点,以samples中最普遍的类标记;n(13)else 加入一个由Dec
6、ision_Tree(Sv,attribute_listtest_attribute)返回的节点。2003-11-110信息熵nID3算法采用基于信息熵定义的信息增益度量来选择内节点的测试属性。熵(Entropy)刻画了任意样本集的纯度。n设S是n个数据样本的集合,将样本集划分为c个不同的类Ci(i=1,2,c),每个类Ci含有的样本数目为ni,则S划分为c个类的信息熵或期望信息为:其中,pi为S中的样本属于第i类Ci的概率,即pini/n。ciiippSE12log2003-11-111n熵值反映了对样本集合S分类的不确定性,也是对样本分类的期望信息。熵值越小,划分的纯度越高,对样本分类的不
7、确定性越低。n一个属性的信息增益,就是用这个属性对样本分类而导致的熵的期望值下降。因此,ID3算法在每一个节点选择取得最大信息增益的属性。2003-11-112期望熵n假设属性A的所有不同值的集合为Values(A),Sv是S中属性A的值为v的样本子集,即Sv=sSA(s)=v,在选择属性A后的每一个分支节点上,对该节点的样本集Sv分类的熵为E(Sv)。选择A导致的期望熵定义为每个子集Sv的熵的加权和,权值为属于Sv的样本占原始样本S的比例,即期望熵为:n其中,E(Sv)是将S v中的样本划分到c个类的信息熵。AValuesvvvSESSASE,2003-11-113信息增益n属性A相对样本集
8、合S的信息增益Gain(S,A)定义为:Gain(S,A)=E(S)E(S,A)nGain(S,A)是指因知道属性A的值后导致的熵的期望压缩。Gain(S,A)越大,说明选择测试属性A对分类提供的信息越多。Quinlan的ID3算法就是在每个节点选择信息增益Gain(S,A)最大的属性作为测试属性。2003-11-114过度拟合 n在创建决策树时,由于训练样本数量太少或数据中存在噪声和孤立点,许多分支反映的是训练样本集中的异常现象,建立的决策树会过度拟合训练样本集。过度拟合也称过学习,指推出过多与训练数据集相一致的假设。过度拟合将导致作出的假设泛化能力过差。2003-11-115决策树的剪枝
9、n剪枝用于解决过度拟合的问题。剪枝的原则包括:(1)奥卡姆剃刀原则“如无必要,勿增实体”。即在与观察相容的情况下,应当选择最简单的一个;(2)决策树越小就越容易理解,其存储与传输的代价也就越小;(3)决策树越复杂,节点越多,每个节点包含的训练样本个数越少,则支持每个节点的假设的样本个数就越少,可能导致决策树在测试集上的分类错误率较大。但决策树过小也会导致错误率较大,因此,需要在树的大小与正确率之间寻找均衡点。2003-11-116剪枝技术n常用的剪枝技术有预剪枝(Pre-pruning)和后剪枝(Post-pruning)两种。预剪枝技术限制决策树的过度生长(如CHAID、和ID3家族的ID3
10、、C4.5算法等),后剪枝技术则是待决策树生成后再进行剪枝(如CART算法等)。n预剪枝:最直接的预剪枝方法是事先限定决策树的最大生长高度,使决策树不能过度生长。n后剪枝:后剪枝技术允许决策树过度生长,然后根据一定的规则,剪去决策树中那些不具有一般代表性的叶节点或分支。2003-11-117决策树算法的改进 nBratko的研究小组在用ID3算法构造决策树时发现,按照信息增益最大的原则,ID3算法首先判断的属性(靠近决策树的根节点)有时并不能提供较多的信息。Konenko等人认为信息增益度量偏向取值较多的属性。n几种改进的算法:二叉树决策算法、按增益比率进行估计的方法、按分类信息估值、按划分距
11、离估值的方法。2003-11-118决策树算法的可伸缩性n面对海量数据集上的数据挖掘任务,决策树算法的有效性和可伸缩性是值得关注的问题。n为改善算法的可伸缩性,早期的策略有数据采样、连续属性离散化、对数据分片构建决策树等,这些策略是以降低分类准确性为代价的。nSLIQ和SPRINT算法能够在非常大的训练样本集上进行决策树归纳学习。“雨林”(RainForest)算法框架关注于提高决策树算法的伸缩性,该框架可用于大多数决策树算法(例如SPRINT和SLIQ),使算法获得的结果与将全部数据放置于内存所得到的结果一致。2003-11-119第八章:分类与预测n8.1 简介n8.2 决策树n8.3 贝
12、叶斯分类n8.4 基于遗传算法分类n8.5 分类法的评估n8.6 预测n本章小结2003-11-120简介n贝叶斯学派奠基性的工作,是英国学者贝叶斯的一篇具有哲学性的论文关于几率性问题求解的讨论。1958年英国历史最长的统计杂志Biometrika重新全文刊载了贝叶斯的论文。n贝叶斯理论在人工智能、机器学习、数据挖掘等方面有广泛应用。20世纪80年代,贝叶斯网络被用于专家系统的知识表示,90年代可学习的贝叶斯网络被用于数据挖掘和机器学习。n贝叶斯分类是一种统计学分类方法,可以预测类成员关系的可能性。2003-11-121朴素贝叶斯分类n朴素贝叶斯分类将训练样本I分解成特征向量X和决策类别变量C
13、。假定一个特征向量的各分量相对于决策变量是独立的,也就是说各分量独立地作用于决策变量。这一假定叫作类条件独立。n一般认为,只有在满足类条件独立的情况下,朴素贝叶斯分类才能获得精确最优的分类效果;在属性相关性较小的情况下,能获得近似最优的分类效果。2003-11-122朴素贝叶斯分类的工作过程n1.用n维特征向量X=x1,x2,xn表示每个数据样本,用以描述对该样本的n个属性A1,A2,An的度量。n2.假定数据样本可以分为m个类C1,C2,Cm。给定一个未知类标号的数据样本X,朴素贝叶斯分类将其分类到类Ci,当且仅当 P(Ci|X)P(Cj|X),1jm,ji P(Ci|X)最大的类Ci称为最
14、大后验假定。由贝叶斯公式可知 XPCPCXPXCPiii2003-11-123朴素贝叶斯分类的工作过程(续)n3.由于P(X)对于所有类都为常数,只需要P(X|Ci)P(Ci)最大即可。如果类的先验概率未知,通常根据贝叶斯假设,可取P(C1)=P(C2)=P(Cm),从而只需P(X|Ci)最大化。类的先验概率也可以用P(Ci)=si/s计算,其中si是类Ci中的训练样本数,s是训练样本总数。n4.当数据集的属性较多时,计算P(X|Ci)的开销可能非常大。如果假定类条件独立,可以简化联合分布,从而降低计算P(X|Ci)的开销。给定样本的类标号,若属性值相互条件独立,即属性间不存在依赖关系,则有:
15、2003-11-124朴素贝叶斯分类的工作过程(续)其中,概率P(x1|Ci),P(x2|Ci),P(xn|Ci)可以由训练样本进行估值。如果Ak 是离散值属性,则P(xk|Ci)=sik/si。其中,sik是类Ci中属性Ak的值为xk的训练样本数,而si是Ci中的训练样本数。如果Ak是连续值属性,通常假定该属性服从高斯分布(正态分布)。从而有 nkikiCxPCXP12221exp21,iiiiiCkCCCCkikxxgCxP2003-11-125朴素贝叶斯分类的工作过程(续)其中,给定类Ci的训练样本属性Ak的值,是属性Ak的高斯密度函数,分别为均值和标准差。n5.对每个类Ci,计算P(X
16、|Ci)P(Ci)。把样本X指派到类Ci的充分必要条件是 P(X|Ci)P(Ci)P(X|Cj)P(Cj),1jm,ji 也就是说,X被分配到使P(X|Ci)P(Ci)最大的类Ci。),g(iiCCkxiCiC2003-11-126贝叶斯网络简介n一般来说,贝叶斯信念网络通过指定一组条件独立性假定(有向无环图),以及一组局部条件概率集合来表示联合概率分布。贝叶斯信念网络也称作贝叶斯网络、信念网络或概率网络。贝叶斯网络允许在变量的子集间定义类条件独立性,并且提供一种因果关系的图形,可以在其上进行学习。2003-11-127贝叶斯网络的定义 n给定一个随机变量集X=X1,X2,Xn,其中Xi是一个
17、m维向量。贝叶斯网络说明X上的一条联合条件概率分布。贝叶斯网络定义如下:B=G,G是一个有向无环图,顶点分别对应于有限集X中的随机变量X1,X2,Xn,每条弧代表一个函数依赖关系。如果有一条由变量Y到X的弧,则Y是X的双亲或称直接前驱,而X则是Y的后继。一旦给定双亲,图中的每个变量就与其非后继节点相独立。在图G中,Xi的所有双亲变量用集合Pa(Xi)表示。2003-11-128贝叶斯网络的定义(续)n 代表用于量化网络的一组参数。对于每一个Xi的取值xi,参数 ,表明在给定Pa(Xi)发生的情况下,事件xi 发生的条件概率。实际上,贝叶斯网络给定了变量集合X上的联合条件概率分布:|()(|()
18、iix Pa xiiP xPa XniiiBnBXPaXPXXXP121)(|(),.,(2003-11-129贝叶斯网络的构造 n(1)确定为建立模型所需的有关变量及其解释。包括:n 确定模型的目标,即确定问题相关的解释。n 确定与问题有关的可能观测值,并确定值得建立模型的子集。n 将这些观测值组织成互不相容的而且穷尽所有状态的变量。n(2)建立一个表示条件独立断言的有向无环图。n(3)指派局部概率分布。在离散的情况下,需要为每一个变量Xi的各个父节点的状态指派一个分布。2003-11-130贝叶斯网络的学习 n依据数据是否完备及网络结构是否已知,贝叶斯网络的学习可分为4种:网络结构已知且数
19、据完备、网络结构已知且数据不完备、网络结构未知且数据完备、网络结构未知且数据不完备。2003-11-131贝叶斯网络的学习(续)n在已知网络结构,并且变量可以从训练样本中完全获得时,通过学习比较容易得到条件概率表,可以采用的方法有最大似然估计方法、贝叶斯方法等。n如果只有一部分变量值能在数据中观察到,学习贝叶斯网络就要困难得多,类似于在人工神经网络中学习隐藏单元的权值,其中输入和输出节点值由训练样本给出,但隐藏单元的值未指定。可以采用的方法有蒙特卡洛方法、高斯近似方法、基于梯度的方法和EM算法等。2003-11-132基于梯度的方法nRussell等人于1995年提出一个简单的基于梯度的方法以
20、学习条件概率表中的项。这一基于梯度的方法搜索一个假设空间,它对应于条件概率表中所有可能的项。在梯度上升中最大化的目标函数是Ph(D),即在给定假设h下观察到训练数据D的概率。n梯度上升规则使用相应于定义条件概率表参数lnPh(D)的梯度来使Ph(D)最大化。令wijk为在给定双亲节点Ui 取值uik时,网络变量Yi值为yij的概率,即wijk代表某个条件概率表中的一个CPT项。2003-11-133基于梯度的方法(续)n给定网络结构和wijk的初值,算法步骤如下:n(1)对于每个wi jk,lnPh(D)的梯度由下式计算的导数给出:n(2)沿梯度上升方向更新每个wi jk:n其中,是一小的常量
21、,称为学习率。DXijkdikiijiijkhdwXuUyYPwDP,ln ijkhijkijkwDPwwln2003-11-134基于梯度的方法(续)n(3)将权值wi jk归一化,以满足当权值wi jk更新时,其取值属于区间0,1,使其成为有效的概率,并且对所有的i,k,都有j wi jk 等于1。n梯度方法的优点是灵活,适应性强,并可借鉴人工神经网络的学习方法。但梯度方法需要在合理的参数空间中搜索,而且存在局部极值问题。2003-11-135贝叶斯网络的优势:n可以综合先验信息和后验信息;n适合处理不完整和带有噪声的数据集;n与“黑匣子”知识表示方式(如人工神经网络)相比,贝叶斯网络可以
22、解释为因果关系,其结果易于理解,并利于进行深入研究。2003-11-136第八章:分类与预测n8.1 简介n8.2 决策树n8.3 贝叶斯分类n8.4 基于遗传算法分类n8.5 分类法的评估n8.6 预测n本章小结2003-11-137遗传算法的发展n最早意识到自然遗传算法可以转化为人工智能算法的是J.H.Holland教授。n1967年,Holland教授的学生J.D.Bagley在其博士论文中首次提出了“遗传算法”一词,并发表了遗传算法应用方面的第一篇论文,从而创立了自适应遗传算法的概念。nJ.D.Bagley发展了复制、交叉、变异、显性、倒位等遗传算子,在个体编码上使用了双倍体的编码方法
展开阅读全文