决策树很详细的算法介绍课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《决策树很详细的算法介绍课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 详细 算法 介绍 课件
- 资源描述:
-
1、1决策树(Decision Tree)2023-1-2921、分类的意义数据库数据库了解类别属性了解类别属性与特征与特征预测预测分类模型决策树分类模型聚类一、分类(Classification)2023-1-293数据库数据库分类标记分类标记性别性别年龄年龄婚姻婚姻否否是是否否是是FemaleFemaleMaleMale35353535未婚未婚已婚已婚2023-1-292、分类的技术(1)决策树4(2)聚类2023-1-293、分类的程序5模型建立(Model Building)模型评估(Model Evaluation)使用模型(Use Model)2023-1-29决策树分类的步骤6数据库
2、2023-1-29训练样本(training samples)建立模型测试样本(testing samples)评估模型例:7资料训练样本训练样本婚姻年龄 家庭 所得否是否是未婚已婚3535低高否小康1.建立模型测试样本2.模型评估错误率为66.67%修改模型3.使用模型2023-1-294、分类算法的评估8预测的准确度:指模型正确地预测新的或先前未见过的数据的类标号的能力。训练测试法(training-and-testing)交叉验证法(cross-validation)例如,十折交叉验证。即是将数据集分成十分,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需
3、要进行多次10倍交叉验证求均值,例如10次10倍交叉验证,更精确一点。2023-1-292023-1-299速度:指产生和使用模型的计算花费。建模的速度、预测的速度强壮性:指给定噪声数据或具有缺失值的数据,模型正确预测的能力。可诠释性:指模型的解释能力。102023-1-29决策树归纳的基本算法是贪心算法,它以自顶向下递归各个击破的方式构造决策树。贪心算法:在每一步选择中都采取在当前状态下最好/优的选择。在其生成过程中,分割方法即属性选择度量是关键。通过属性选择度量,选择出最好的将样本分类的属性。根据分割方法的不同,决策树可以分为两类:基于信息论的方法(较有代表性的是ID3、C4.5算法等)和
4、最小GINI指标方法(常用的有CART、SLIQ及SPRINT算法等)。二、决策树(Decision Tree)(一)决策树的结构11根部节点(root node)中间节点(non-leaf node)(代表测试的条件)分支(branches)(代表测试的结果)叶节点(leaf node)(代表分类后所获得的分类标记)2023-1-292023-1-2912(二)决策树的形成例:13n根部节点n中间节点n停止分支?2023-1-29(三)ID3算法(C4.5,C5.0)142023-1-29Quinlan(1979)提出,以Shannon(1949)的信息论为依据。ID3算法的属性选择度量就是
5、使用信息增益,选择最高信息增益的属性作为当前节点的测试属性。信息论:若一事件有k种结果,对应的概率为Pi。则此事件发生后所得到的信息量I(视为Entropy)为:I=-(p1*log2(p1)+p2*log2(p2)+pk*log2(pk)Example 1:设 k=4p1=0.25,p2=0.25,p3=0.25,p4=0.25 I=-(.25*log2(.25)*4)=2Example 2:设k=4p1=0,p2=0.5,p3=0,p4=0.5I=-(.5*log2(.5)*2)=1Example 3:设 k=4p1=1,p2=0,p3=0,p4=0 I=-(1*log2(1)=02023
6、-1-29152023-1-2916信息增益17Example(Gain)n=16 n1=4I(16,4)=(4/16)*log2(4/16)+(12/16)*log2(12/16)=0.8113E(年龄)=(6/16)*I(6,1)+(10/16)*I(10,3)=0.7946Gain(年龄)=I(16,4)-E(年龄)=0.0167nGain(年龄)=0.0167nMax:作为第一个分类依据2023-1-29nGain(性别)=0.0972nGain(家庭所得)=0.0177Example(续)18nGain(家庭所得)=0.688I(7,3)=-(3/7)*log2(3/7)+(4/7)
展开阅读全文