决策树算法及应用拓展教材课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《决策树算法及应用拓展教材课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 算法 应用 拓展 教材 课件
- 资源描述:
-
1、决策树算法及应用拓展n内容简介:n概述n预备知识n决策树生成(Building Decision Tree)n决策树剪枝(Pruning Decision Tree)n捕捉变化数据的挖掘方法n小结决策树算法及应用拓展教材ppt决策树算法及应用拓展教材ppt概述(一)n传统挖掘方法的局限性n只重视从数据库中提取规则,忽视了库中数据的变化n挖掘所用的数据来自稳定的环境,人为干预较少概述(二)n捕捉新旧数据变化的目的:n挖掘出变化的趋势n例:啤酒尿布n阻止/延缓不利变化的发生n例:金融危机银行的信贷策略n差异挖掘算法的主要思想:n合理合理比较新/旧数据的挖掘结果,并清晰的描述其变化部分预备知识一(B
2、uilding Tree)n基本思想:n用途:提取分类规则,进行分类预测判定树分类算法output训练集决策树input使用决策树进行分类n决策树 n一个树性的结构n内部节点上选用一个属性进行分割n每个分叉都是分割的一个部分n叶子节点表示一个分布n决策树生成算法分成两个步骤n树的生成n开始,数据都在根节点n递归的进行数据分片n树的修剪n去掉一些可能是噪音或者异常的数据n决策树使用:对未知数据进行分割n按照决策树上采用的分割属性逐层往下,直到一个叶子节点决策树算法n基本算法(贪心算法)n自上而下分而治之的方法n开始时,所有的数据都在根节点n属性都是种类字段(如果是连续的,将其离散化)n所有记录用
3、所选属性递归的进行分割n属性的选择是基于一个启发式规则或者一个统计的度量(如,information gain)n停止分割的条件n一个节点上的数据都是属于同一个类别n没有属性可以再用于对数据进行分割伪代码(Building Tree)Procedure BuildTree(S)用数据集S初始化根节点R 用根结点R初始化队列QWhile Q is not Empty do 取出队列Q中的第一个节点Nif N 不纯(Pure)for 每一个属性 A估计该节点在A上的信息增益 选出最佳的属性,将N分裂为N1、N2属性选择的统计度量n信息增益Information gain(ID3/C4.5)n所有属
4、性假设都是种类字段n经过修改之后可以适用于数值字段n基尼指数Gini index(IBM IntelligentMiner)n能够适用于种类和数值字段信息增益度度量(ID3/C4.5)n任意样本分类的期望信息:nI(s1,s2,sm)=Pi log2(pi)(i=1.m)n其中,数据集为S,m为S的分类数目,PinCi为某分类标号,Pi为任意样本属于Ci的概率,si为分类Ci上的样本数n由A划分为子集的熵:nE(A)=(s1j+smj)/s*I(s1j+smj)nA为属性,具有V个不同的取值n信息增益:Gain(A)=I(s1,s2,sm)E(A)|SSi训练集(举例)ageincome st
5、udentcredit_ratingbuys_computer=30highnofairno40mediumnofairyes40lowyesfairyes40lowyesexcellentno3140 lowyesexcellentyes=30mediumnofairno40mediumyesfairyes40mediumnoexcellentnoID3算法使用信息增益进行属性选择gClass P:buys_computer=“yes”gClass N:buys_computer=“no”gI(p,n)=I(9,5)=0.940gCompute the entropy for age:Hen
6、ceSimilarlyagepiniI(pi,ni)40320.971971.0)2,3(145)0,4(144)3,2(145)(IIIageE048.0)_(151.0)(029.0)(ratingcreditGainstudentGainincomeGain)(),()(ageEnpIageGainDecision Tree(结果输出结果输出)age?overcaststudent?credit rating?noyesfairexcellent40nonoyesyesyes30.40基尼指数 Gini Index(IBM IntelligentMiner)n集合T包含N个类别的记录,那
7、么其Gini指标就是pj 类别j出现的频率n如果集合T分成两部分 N1 and N2。那么这个分割的Gini就是n提供最小Ginisplit 就被选择作为分割的标准(对于每个属性都要遍历所有可以的分割方法).njpjTgini121)()()()(2211TginiNNTginiNNTginisplit预备知识二(Pruning Tree)n目的:n消除决策树的过适应(OverFitting)问题n实质:消除训练集中的异常和噪声n两种方法:n先剪枝法(Public 算法)n后剪枝法(Sprint 算法)两种剪枝标准n最小描述长度原则(MDL)n思想:最简单的解释最期望的n做法:对Decisio
8、n-Tree 进行二进位编码,编码所需二进位最少的树即为“最佳剪枝树”n期望错误率最小原则n思想:选择期望错误率最小的子树进行剪枝n对树中的内部节点计算其剪枝/不剪枝可能出现的期望错误率,比较后加以取舍Cost of Encoding Data Recordsn对n条记录进行分类编码的代价(2种方法)nn 记录数,k 类数目,ni属于类i的记录数!1!log)11log(nknnkkn)2/(log2log21log*)(2/knknniniSCkiCost of Encoding Treen编码树结构本身的代价n编码每个分裂节点的代价n确定分类属性的代价n确定分类属性值的代价&其中,v是该节
9、点上不同属性值的个数n编码每个树叶上的记录分类的代价)22log(v)1log(v剪枝算法n设N为欲计算其最小代价的节点n两种情形:nN是叶结点C(S)+1 Cost1nN是内部节点,有两个子节点N1、N2n已剪去N1、N2,N成为叶子节点 Cost1n计算N节点及其子树的代价,使用递归过程 Csplit(N)+1+minCost1+minCost2 Cost2 比较Cost1和Cost2,选取代价较小者代价较小者作为返回值计算最小子树代价的伪代码Procedure ComputeCost&Prune(Node N)if N 是叶子节点,return(C(S)+1)minCost1=Compu
10、te&Prune(Node N1)minCost2=Compute&Prune(Node N2)minCostN=minC(S)+1,Csplit(N)+1+minCost1 +minCost2 if minCostN=C(S)+1 Prune child nodes N1 and N2 return minCostN引入Public算法n一般做法:先建树,后剪枝nPublic算法:建树的同时进行剪枝n思想:在一定量(用户定义参数)的节点分裂后/周期性的进行部分树的剪枝n存在的问题:可能高估(Over-Estimate)被剪节点的值n改进:采纳低估(Under-Estimate)节点代价的策略
展开阅读全文