第3章-分类与决策树分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第3章-分类与决策树分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 决策树 分析 课件
- 资源描述:
-
1、第第3章章分类与预测分类与预测主要内容v分类与决策树概述分类与决策树概述vID3、C4.5与与C5.0vCART分类 VS. 预测v分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来分类和预测是两种数据分析形式,用于提取描述重要数据类或预测未来的数据趋势的数据趋势 的模型的模型分类:分类:v预测类对象的分类标号(或离散值)预测类对象的分类标号(或离散值)v根据训练数据集和类标号属性,构建模型来分类现有数据,并用根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据来分类新数据预测:预测:v建立连续函数值模型建立连续函数值模型v比如预测空缺值,或者预测顾客在计算机设备上
2、的花费比如预测空缺值,或者预测顾客在计算机设备上的花费v典型应用典型应用欺诈检测、市场定位、性能预测、医疗诊断欺诈检测、市场定位、性能预测、医疗诊断v分类是一种应用非常广泛的数据挖掘技术分类是一种应用非常广泛的数据挖掘技术 v分类与预测的区别:分类与预测的区别:当估计的属性值是离散值时,这就是当估计的属性值是离散值时,这就是分类分类;当估计的属性值是连续值时,这就是当估计的属性值是连续值时,这就是预测预测。分类和预测分类和预测-示例示例v分类分类银行贷款员需要分析数据,来弄清哪些贷款申请银行贷款员需要分析数据,来弄清哪些贷款申请者是安全的,哪些是有风险的(将贷款申请者分者是安全的,哪些是有风险
3、的(将贷款申请者分为为“安全安全”和和“有风险有风险”两类)两类)v我们需要构造一个分类器来预测类属编号,比如预测我们需要构造一个分类器来预测类属编号,比如预测顾客属类顾客属类v预测预测银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v构造一个预测器,预测一个连续值函数或有序值,常构造一个预测器,预测一个连续值函数或有序值,常用方法是回归分析用方法是回归分析数据分类数据分类一个两步过程一个两步过程 (1)v第一步,也成为学习步,目标是建立描述预先定义的数第一步,也成为学习步,目标是建立描述预先定义的数据类或概念集的分类器据类或概念集的分类器分类算法通过分
4、析或从训练集分类算法通过分析或从训练集“学习学习”来构造分类器。来构造分类器。训练集由数据库元组(用训练集由数据库元组(用n维属性向量表示)和他们相对维属性向量表示)和他们相对应的类编号组成;假定每个元组属于一个预定义的类应的类编号组成;假定每个元组属于一个预定义的类v训练元组:训练数据集中的单个元组训练元组:训练数据集中的单个元组学习模型可以用分类规则、决策树或数学公式的形式提学习模型可以用分类规则、决策树或数学公式的形式提供供数据分类数据分类一个两步过程一个两步过程 (2)v第二步,使用模型,对将来的或未知的对象进行分类第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率
5、首先评估模型的预测准确率v对每个测试样本,将已知的类标号和该样本的学习模型类预测比对每个测试样本,将已知的类标号和该样本的学习模型类预测比较较v模型在给定测试集上的准确率是正确被模型分类的测试样本的百模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比分比v测试集要独立于训练样本集,否则会出现测试集要独立于训练样本集,否则会出现“过分拟合过分拟合”的情况的情况第一步建立模型训练数据集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7ye
6、sDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = professorOR years 6THEN tenured = yes 分类规则第二步用模型进行分类分类规则测试集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff, Professor, 4)Tenured?监督学习监督学习 VS. 无监督学习无监督学习v监督学习(用于分类)监督学习(用于
7、分类)模型的学习在被告知每个训练样本属于哪个类的模型的学习在被告知每个训练样本属于哪个类的“指导指导”下进行下进行新数据使用训练数据集中得到的规则进行分类新数据使用训练数据集中得到的规则进行分类v无监督学习(用于聚类)无监督学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的合或数量也可能是事先未知的通过一系列的度量、观察来建立数据中的类编号通过一系列的度量、观察来建立数据中的类编号或进行聚类或进行聚类数据预测的两步过程数据预测的两步过程v数据预测也是一个两步的过程,类似于前面描述的数据分类数据预测也是一个两步的过程,类
8、似于前面描述的数据分类对于预测,没有对于预测,没有“类标号属性类标号属性”要预测的属性是连续值,而不是离散值,该属性可简称要预测的属性是连续值,而不是离散值,该属性可简称“预测属性预测属性”vE.g. 银行贷款员需要预测贷给某个顾客多少钱是安全银行贷款员需要预测贷给某个顾客多少钱是安全的的v预测器可以看作一个映射或函数预测器可以看作一个映射或函数y=f(X)其中其中X是输入;是输入;y是输出,是一个连续或有序的值是输出,是一个连续或有序的值与分类类似,准确率的预测,也要使用单独的测试集与分类类似,准确率的预测,也要使用单独的测试集3.1 决策树概述决策树概述v决策树决策树(Decision T
9、ree) 一种描述概念空间的有效的归纳推理办法。一种描述概念空间的有效的归纳推理办法。基于决策树的学习方法可以进行不相关的基于决策树的学习方法可以进行不相关的多概念学习,具有简单快捷的优势,已经多概念学习,具有简单快捷的优势,已经在各个领域取得广泛应用。在各个领域取得广泛应用。v决策树是一种树型结构,其中每个内部结决策树是一种树型结构,其中每个内部结点表示在一个属性上的测试,每个分支代点表示在一个属性上的测试,每个分支代表一个测试输出,每个叶结点代表一种类表一个测试输出,每个叶结点代表一种类别。别。v决策树学习是以实例为基础的归纳学习。决策树学习是以实例为基础的归纳学习。v从一类无序、无规则的
10、事物(概念)中推理出决策树表示的分类规从一类无序、无规则的事物(概念)中推理出决策树表示的分类规则。则。v概念分类学习算法:来源于概念分类学习算法:来源于Hunt,Marin和和Stone 于于1966年研制的年研制的CLS学习系统,用于学习学习系统,用于学习单个概念。单个概念。1979年年, J.R. Quinlan 给出给出ID3算法,并在算法,并在1983年和年和1986年对年对ID3 进行了总结和简化,使其成为决策树学习算法的典型。进行了总结和简化,使其成为决策树学习算法的典型。Schlimmer 和和Fisher 于于1986年对年对ID3进行改造,在每个可能的进行改造,在每个可能的
11、决策树节点创建缓冲区,使决策树可以递增式生成,得到决策树节点创建缓冲区,使决策树可以递增式生成,得到ID4算算法。法。1988年,年,Utgoff 在在ID4基础上提出了基础上提出了ID5学习算法,进一步提高学习算法,进一步提高了效率。了效率。1993年,年,Quinlan 进一步发展了进一步发展了ID3算法,改进成算法,改进成C4.5算法。算法。另一类决策树算法为另一类决策树算法为CART,与,与C4.5不同的是,不同的是,CART的决策树的决策树由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习由二元逻辑问题生成,每个树节点只有两个分枝,分别包括学习实例的正例与反例。实例的正例与反例
12、。v其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子其基本思想是以信息熵为度量构造一棵熵值下降最快的树,到叶子节点处的熵值为零,此时每个叶节点中的实例都属于同一类。节点处的熵值为零,此时每个叶节点中的实例都属于同一类。v决策树学习采用的是自顶向下的递归方法。决策树学习采用的是自顶向下的递归方法。v决策树的每一层节点依照某一属性值向下分为子节点,待决策树的每一层节点依照某一属性值向下分为子节点,待分类的实例在每一节点处与该节点相关的属性值进行比较,分类的实例在每一节点处与该节点相关的属性值进行比较,根据不同的比较结果向相应的子节点扩展,这一过程在到根据不同的比较结果向相应的子节点扩展,
13、这一过程在到达决策树的叶节点时结束,此时得到结论。达决策树的叶节点时结束,此时得到结论。v从根节点到叶节点的每一条路经都对应着一条合理的规则,从根节点到叶节点的每一条路经都对应着一条合理的规则,规则间各个部分(各个层的条件)的关系是合取关系。整规则间各个部分(各个层的条件)的关系是合取关系。整个决策树就对应着一组析取的规则。个决策树就对应着一组析取的规则。v决策树学习算法的最大优点是,它可以自学习。在学习的决策树学习算法的最大优点是,它可以自学习。在学习的过程中,不需要使用者了解过多背景知识,只需要对训练过程中,不需要使用者了解过多背景知识,只需要对训练例子进行较好的标注,就能够进行学习。如果
14、在应用中发例子进行较好的标注,就能够进行学习。如果在应用中发现不符合规则的实例,程序会询问用户该实例的正确分类,现不符合规则的实例,程序会询问用户该实例的正确分类,从而生成新的分枝和叶子,并添加到树中。从而生成新的分枝和叶子,并添加到树中。 v树是由节点和分枝组成的层树是由节点和分枝组成的层次数据结构。节点用于存贮次数据结构。节点用于存贮信息或知识,分枝用于连接信息或知识,分枝用于连接各个节点。树是图的一个特各个节点。树是图的一个特例,图是更一般的数学结构,例,图是更一般的数学结构,如贝叶斯网络。如贝叶斯网络。v决策树是描述分类过程的一决策树是描述分类过程的一种数据结构,从上端的根节种数据结构
15、,从上端的根节点开始,各种分类原则被引点开始,各种分类原则被引用进来,并依这些分类原则用进来,并依这些分类原则将根节点的数据集划分为子将根节点的数据集划分为子集,这一划分过程直到某种集,这一划分过程直到某种约束条件满足而结束。约束条件满足而结束。 根结点根结点个子大个子大可能是松鼠可能是松鼠可能是老鼠可能是老鼠可能是大象可能是大象在水里在水里会吱吱叫会吱吱叫鼻子长鼻子长脖子长脖子长个子小个子小不会吱吱叫不会吱吱叫鼻子短鼻子短脖子短脖子短可能是长颈鹿可能是长颈鹿在陆地上在陆地上可能是犀牛可能是犀牛可能是河马可能是河马v可以看到,一个决策树的内部结点包含学习的实例,每层分枝可以看到,一个决策树的内
16、部结点包含学习的实例,每层分枝代表了实例的一个属性的可能取值,叶节点是最终划分成的类。代表了实例的一个属性的可能取值,叶节点是最终划分成的类。如果判定是二元的,那么构造的将是一棵二叉树,在树中每回如果判定是二元的,那么构造的将是一棵二叉树,在树中每回答一个问题就降到树的下一层,这类树一般称为答一个问题就降到树的下一层,这类树一般称为CART(Classification And Regression Tree)。)。v判定结构可以机械的转变成产生式规则。可以通过对结构进行判定结构可以机械的转变成产生式规则。可以通过对结构进行广度优先搜索,并在每个节点生成广度优先搜索,并在每个节点生成“IFTH
17、EN”规则来实现。规则来实现。如图如图6-13的决策树可以转换成下规则:的决策树可以转换成下规则: IF “个子大个子大” THEN IF “脖子短脖子短” THEN IF “鼻子长鼻子长” THEN 可能是大象可能是大象形式化表示成形式化表示成可能是大象鼻子长脖子短个子大 根结点根结点个 子个 子大大可 能 是 松可 能 是 松鼠鼠可 能 是 老可 能 是 老鼠鼠可 能 是 大可 能 是 大象象在 水在 水里里会 吱 吱会 吱 吱叫叫鼻 子鼻 子长长脖 子脖 子长长个子小个子小不会吱吱不会吱吱叫叫鼻子鼻子短短脖子脖子短短可能是长颈可能是长颈鹿鹿在 陆 地在 陆 地上上可 能 是 犀可 能 是
18、 犀牛牛可 能 是 河可 能 是 河马马v构造一棵决策树要解决四个问题:构造一棵决策树要解决四个问题:收集待分类的数据,这些数据的所有属性应该是完全标注的。收集待分类的数据,这些数据的所有属性应该是完全标注的。设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量设计分类原则,即数据的哪些属性可以被用来分类,以及如何将该属性量化。化。分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树分类原则的选择,即在众多分类准则中,每一步选择哪一准则使最终的树更令人满意。更令人满意。设计分类停止条件,实际应用中数据的属性很多,真正有分类意义的属性设计分类停止条件,实际应用中数据的属性
19、很多,真正有分类意义的属性往往是有限几个,因此在必要的时候应该停止数据集分裂:往往是有限几个,因此在必要的时候应该停止数据集分裂:v该节点包含的数据太少不足以分裂,该节点包含的数据太少不足以分裂,v继续分裂数据集对树生成的目标继续分裂数据集对树生成的目标(例如例如ID3中的熵下降准则中的熵下降准则)没有贡献,没有贡献,v树的深度过大不宜再分。树的深度过大不宜再分。v通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小通用的决策树分裂目标是整棵树的熵总量最小,每一步分裂时,选择使熵减小最大的准则,这种方案使最具有分类潜力的准则最先被提取出来最大的准则,这种方案使最具有分类潜力的准
20、则最先被提取出来 预测变量目标变量记录样本类标号属性类别集合:类别集合:Class=“优优”,“良良”,“差差” 决策树的基本原理 根节点根节点叶子节点叶子节点分裂属性分裂属性分裂谓词分裂谓词 每一个叶子节点都被确定一个类标号每一个叶子节点都被确定一个类标号 v每一个节点都代表了一个数据集。每一个节点都代表了一个数据集。根节点根节点1代表了初始数据集代表了初始数据集D其它节点都是数据集其它节点都是数据集D的子集。的子集。v例如,节点例如,节点2代表数据集代表数据集D中年龄小于中年龄小于40岁的那部分样本组成岁的那部分样本组成的数据集。的数据集。v子节点是父节点的子集。子节点是父节点的子集。 v
21、If (年龄年龄40) and (职业职业=“学生学生” or职业职业=“教师教师”) Then 信用等级信用等级=“优优”vIf (年龄年龄40) and (职业职业!=“学生学生”and职业职业!=“教师教师”) Then 信用等信用等级级=“良良”vIf (年龄年龄40) and (月薪月薪3000) Then 信用等级信用等级=“优优”v决策树是指具有下列三个性质的树:决策树是指具有下列三个性质的树:每个非叶子节点都被标记一个分裂属性每个非叶子节点都被标记一个分裂属性Ai;每个分支都被标记一个分裂谓词,这个分裂谓每个分支都被标记一个分裂谓词,这个分裂谓词是分裂父节点的具体依据;词是分裂
22、父节点的具体依据;每个叶子节点都被标记一个类标号每个叶子节点都被标记一个类标号CjC。v任何一个决策树算法,其核心步骤都是为任何一个决策树算法,其核心步骤都是为每一次分裂确定一个每一次分裂确定一个分裂属性分裂属性,即究竟按,即究竟按照哪一个属性来把当前数据集划分为若干照哪一个属性来把当前数据集划分为若干个子集,从而形成若干个个子集,从而形成若干个“树枝树枝”。v熵,是数据集中的不确定性、突发性或随机性的熵,是数据集中的不确定性、突发性或随机性的程度的度量。程度的度量。v当一个数据集中的记录全部都属于同一类的时候,当一个数据集中的记录全部都属于同一类的时候,则没有不确定性,这种情况下的熵就为则没
23、有不确定性,这种情况下的熵就为0。v决策树分裂的基本原则是,数据集被分裂为若干决策树分裂的基本原则是,数据集被分裂为若干个子集后,要使每个子集中的数据尽可能的个子集后,要使每个子集中的数据尽可能的“纯纯”,也就是说子集中的记录要尽可能属于同,也就是说子集中的记录要尽可能属于同一个类别。如果套用熵的概念,即要使分裂后各一个类别。如果套用熵的概念,即要使分裂后各子集的熵尽可能的小。子集的熵尽可能的小。3.2 ID3、C4.5与与C5.0ID3=C4.5=C5.0vRoss QuinlanID3 1986年C4.5 1993年C5.0 1998年 2011年获得KDD创新奖vhttp:/ 和和D2
24、信息增益信息增益:Gain(D,年龄年龄)= H(D)P(D1)H(D1)+ P(D2)H(D2) v显然,如果显然,如果D1和和D2中的数据越中的数据越“纯纯”,H(D1)和和H(D2)就越小,信就越小,信息增益就越大,或者说熵下降得越息增益就越大,或者说熵下降得越多。多。v按照这个方法,测试每一个属性的信按照这个方法,测试每一个属性的信息增益,选择增益值最大的属性作为息增益,选择增益值最大的属性作为分裂属性。分裂属性。信息熵计算举例信息熵计算举例v令令C1对应对应“是是”,C2对应对应“否否”。那么。那么C1有有9个样个样本,本,C2有有5个样本,所以数据集个样本,所以数据集D的熵为:的熵
25、为:9406. 0)145(log145)149(log149)5 , 9(),(2221 IssI决策树归纳策略 (1)v输入输入数据划分数据划分D是训练元组和对应类标号的集合是训练元组和对应类标号的集合attribute_list,候选属性的集合候选属性的集合Attribute_selection_method,指定选择属性的启发性过程,指定选择属性的启发性过程算法步骤算法步骤1.树以代表训练样本的单个节点(树以代表训练样本的单个节点(N)开始)开始2.如果样本都在同一个类,则该节点成为树叶,并用该类标记如果样本都在同一个类,则该节点成为树叶,并用该类标记3.否则,算法调用否则,算法调用A
展开阅读全文