分类与决策树[1]课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《分类与决策树[1]课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 决策树 课件
- 资源描述:
-
1、2022-8-1分类与决策树1分类与决策树分类与决策树分类与决策树1银行个人住房贷款审批银行个人住房贷款审批银行个人客户提出住房贷款申请,根据历史银行个人客户提出住房贷款申请,根据历史数据发现:部分贷款客户不能按时还款。为尽量数据发现:部分贷款客户不能按时还款。为尽量降低这种现象,需要发现不能按时还款客户的特降低这种现象,需要发现不能按时还款客户的特征,以便对以后住房贷款申请的审批提供依据。征,以便对以后住房贷款申请的审批提供依据。2006年年底,由年年底,由SAS机构与招商银行启动了全机构与招商银行启动了全行个人住房贷款评分卡开发与推广项目。行个人住房贷款评分卡开发与推广项目。该项目利用客户
2、的历史数据构建评分卡模型,该项目利用客户的历史数据构建评分卡模型,然后将该模型应用到新客户上,最后决定是否接然后将该模型应用到新客户上,最后决定是否接受新客户的贷款申请。受新客户的贷款申请。分析数据集应该包括哪些客户?分析数据集应该包括哪些客户?分类与决策树1银行贷款申请 IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYes
3、GoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1分类与预测 分类:分类:目标变量为非数值型目标变量为非数值型 预测:预测:目标变量为数值型目标变量为数值型 根据历史数据集(已知目标变根据历史数据集(已知目标变量),构建模型描述目标变量量),构建模型描述目标变量与输入变量之间的关系,并依与输入变量之间的关系,并依据模型来分类或预测新数据
4、(据模型来分类或预测新数据(目标变量值未知目标变量值未知)。分类模型也称为分类器。分类模型也称为分类器。模型应用模型应用建模建模规则规则1:If refund=no and marst=married then cheat=no模型评估模型评估分类与决策树1分类的过程数据集分区数据集分区 训练集训练集:建立模型:建立模型 验证集验证集:调整和选择模型:调整和选择模型 测试集测试集:评估模型的预测能力:评估模型的预测能力建立模型建立模型评估并选择模型评估并选择模型运用模型运用模型 新数据(打分集)新数据(打分集)思考:分类模型在什么情况下不适合用于新数据?思考:分类模型在什么情况下不适合用于新数
5、据?分类与决策树1分类方法决策树方法决策树方法贝叶斯分类法贝叶斯分类法LOGISTIC回归回归神经网络方法神经网络方法K近邻分类法近邻分类法SVM分类法分类法.分类与决策树1RootLeafNode7决策树(decision tree)规则规则1:If refund=no and(marst=single or marst=divorced)and taxincome80k then cheat=yes分类与决策树1决策树 是一棵二叉或多叉树结构 每个内部节点代表一个属性,该节点的分支表示根据该属性的不同测试条件的输出 叶子节点表示一个类标 决策树一般是自上而下生成的决策树一般是自上而下生成的
6、分类与决策树1l决策树基本思想决策树基本思想l建立决策树建立决策树l将决策树转换为决策规则并应用将决策树转换为决策规则并应用l相关问题讨论相关问题讨论内容分类与决策树1一、决策树思想将数据集根据某种测试条件分为将数据集根据某种测试条件分为2个或多个个或多个子集,使分裂后的子集在目标变量上具有更子集,使分裂后的子集在目标变量上具有更纯的分类纯的分类纯度与混杂度纯度与混杂度分类与决策树1混杂度的常用测度指标混杂度的常用测度指标 信息熵信息熵(Entropy)基尼指数(基尼指数(Gini Index)分类误差(分类误差(classification error)分类与决策树1Pj 是数据集合中类别是
7、数据集合中类别j的相对比例的相对比例.entropy=12信息熵信息熵(Entropy)什么情况下,熵最小?什么情况下,熵最小?什么情况下,熵最大?什么情况下,熵最大?lentropy=-1 log21-0 log20=0目标变量为二元变量:lentropy=-0.5 log20.5 0.5 log20.5=1分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7Mid
8、dleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集的熵:银行贷款案例数据集的熵:Entropy(T)=6/15*log2(6/15)9/15*log2(9/15)=0.971分类与决策树1Gini 指数Pj 是数据集合中类别是数据集合中类别j的相对比例的相对比例.GI
9、NI最大最大=?GINI最小最小=?1-1/2 (目标变量为二元变量)(目标变量为二元变量)0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12Old
10、NoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集银行贷款案例数据集的基尼指数:的基尼指数:gini=1-(6/15)2-(9/15)2=0.48分类与决策树1分类误差(分类误差(classification error)CE最大最大=?CE最小最小=?1-1/2 (目标变量为二元变量)(目标变量为二元变量)0分类与决策树1IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYe
11、s4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo银行贷款数据集银行贷款案例数据集银行贷款案例数据集的分类误差:的分类误差:CE=1-9/15=6/15=0.4分类与决策树1二、建立决策
12、树二、建立决策树常用算法常用算法ID3-ID5,C4,C4.5,C5.0CART(Classification and Regression Trees分分类与回归树类与回归树)(C&RT)CHAID(chi-squared automatic interaction detection,卡方自动交互检测,卡方自动交互检测)二叉二叉 GINI 指数指数二叉或多叉二叉或多叉 信息熵信息熵二叉或多叉二叉或多叉分类与决策树1建立决策树建立决策树 树的生长树的生长 分裂属性及其条件的选择分裂属性及其条件的选择 何时结束分裂何时结束分裂 树的选择树的选择分类与决策树11.裂分目标与属性选择裂分目标裂分目
13、标 使分裂后数据子集的使分裂后数据子集的纯度纯度比裂分前数据集的纯度比裂分前数据集的纯度最大限度的提高最大限度的提高;即不同类别的观测尽量分散在不;即不同类别的观测尽量分散在不同的子集中。同的子集中。指标指标 信息增益与信息增益率信息增益与信息增益率 GINI指数的下降指数的下降 二分指数二分指数 卡方检验卡方检验 C-SEP、分类与决策树1信息增益Information Gain=裂分前数据集的熵裂分前数据集的熵 裂分后各子数据集的熵裂分后各子数据集的熵加权和加权和其中:权重为每个子集中的观测数在裂分前总其中:权重为每个子集中的观测数在裂分前总观测数中所占的比例观测数中所占的比例分类与决策树
14、1案例数据集基于own_home属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12OldNoYesGoodYes13OldYesNoGoodYes14Old
15、YesNoExcellentYes15OldNoNoFairNo分类与决策树1案例数据集基于ownhome属性划分划分后数据集的熵划分后数据集的熵EntropyOwn_home(T)=6/15*Entropy(T1)+9/15*Entropy(T2)=6/15*(6/6*log2(6/6)0/0*log2(0/6)+9/15*(3/9*log2(3/9)6/9*log2(6/9)=0.551 信息增益信息增益Gain(ownhome)=0.971-0.551=0.42Own_homeYesNoYes:6No:0No:6Yes:3 裂分前数据集的熵:裂分前数据集的熵:Entropy(T0)=6/
16、15*log2(6/15)9/15*log2(9/15)=0.971分类与决策树1案例数据集基于age属性划分IDAgeHas_jobOwn_homeCreditClass1YoungNoNoFairNo2YoungNoNoGoodNo3YoungYesNoGoodYes4YoungYesYesFairYes5YoungNoNoFairNo6MiddleNoNoFairNo7MiddleNoNoGoodNo8MiddleYesYesGoodYes9MiddleNoYesExcellentYes10MiddleNoYesExcellentYes11OldNoYesExcellentYes12Ol
17、dNoYesGoodYes13OldYesNoGoodYes14OldYesNoExcellentYes15OldNoNoFairNo分类与决策树1案例数据集基于age属性划分裂分后数据集的熵裂分后数据集的熵EntropyAge(T)=5/15*Entropy(T1)+5/15*Entropy(T2)+5/15*Entropy(T3)=5/15*(3/5*log2(3/5)2/5*log2(2/5)+5/15*(3/5*log2(3/5)2/5*log2(2/5)+5/15*(1/5*log2(1/5)4/5*log2(4/5)=0.888 信息增益信息增益Gain(age)=0.971-0.
展开阅读全文