决策树简介(PPT-45页)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《决策树简介(PPT-45页)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 简介 PPT 45 课件
- 资源描述:
-
1、 决策树决策树第十组:郭浩 韩学成 何珺 何军 黄安迪4.1 数据分类介绍数据分类介绍分类分类是是数据挖掘数据挖掘的一个重要课题的一个重要课题,它的目的是:它的目的是:构造一个分类函数或分类模型构造一个分类函数或分类模型,该模型能把数据库中的该模型能把数据库中的数据项映射到给定类别中的某一个。数据项映射到给定类别中的某一个。数据分类的过程一般来说主要包含两个步骤数据分类的过程一般来说主要包含两个步骤第一步第一步,建立一个描述已知数据集类别或概念的模型建立一个描述已知数据集类别或概念的模型第二步第二步,利用所获得的模型进行分类操作利用所获得的模型进行分类操作4.1 数据分类介绍数据分类介绍-2第
2、一步第一步,建立一个描述已知数据集类别或概念的模型建立一个描述已知数据集类别或概念的模型该模型是通过对数据库中各数据进行内容的分析而获得该模型是通过对数据库中各数据进行内容的分析而获得的。的。分类学习方法所使用的数据集称为分类学习方法所使用的数据集称为训练样本集合训练样本集合,每一,每一数据行都属于一个确定的数据类别,其类别值是由一个属性数据行都属于一个确定的数据类别,其类别值是由一个属性来描述的来描述的(被称为被称为类别标记属性类别标记属性)。因此分类学习又可称为因此分类学习又可称为监督学习监督学习,它是在,它是在已知训练样本已知训练样本类别类别情况下,通过学习建立相应模型。而情况下,通过学
3、习建立相应模型。而无监督学习无监督学习则是在则是在训练样本的类别与类别个数均未知的情况下进行的,如聚类训练样本的类别与类别个数均未知的情况下进行的,如聚类分析。分析。4.1 数据分类介绍数据分类介绍-2第二步第二步,利用所获得的模型进行分类操作利用所获得的模型进行分类操作首先对模型分类准确率进行估计。首先对模型分类准确率进行估计。模型的准确性可以通过由该模型所正确分类的测试样本模型的准确性可以通过由该模型所正确分类的测试样本个数所占总测试样本的比例得到。即对于每一个测试样本,个数所占总测试样本的比例得到。即对于每一个测试样本,比较其已知的类别与学习所获模型的预测类别。比较其已知的类别与学习所获
4、模型的预测类别。如果一个学习所获模型的准确率经测试被认为是可以如果一个学习所获模型的准确率经测试被认为是可以接受的,那么就可以使用这一模型对未来数据行或对象接受的,那么就可以使用这一模型对未来数据行或对象(其类别未知其类别未知)进行分类,即利用学习所获得的模型进行分类,即利用学习所获得的模型进行预测进行预测,对未知类别的数据行或对象判断其,对未知类别的数据行或对象判断其类别类别(属性属性)取值。取值。由训练数据产生分类规则由训练数据产生分类规则由分类规则对新的样本数据进行分类由分类规则对新的样本数据进行分类4.1 决策树介绍决策树介绍-2常用的分类预测算法:常用的分类预测算法:l 决策树归纳分
5、类决策树归纳分类l 贝叶斯分类贝叶斯分类l 基于规则的分类基于规则的分类l 用后向传播分类用后向传播分类l 遗传算法、粗糙集方法、模糊集方法遗传算法、粗糙集方法、模糊集方法4.1 决策树介绍决策树介绍-24.1.1 决策树的基本知识决策树的基本知识 决策树方法最早产生于决策树方法最早产生于20世纪世纪60年代,是由年代,是由Hunt等人研究人类概念等人研究人类概念建模时建立的学习系统建模时建立的学习系统CLS(concept learning system)。到了。到了70年代末,年代末,J.Ross Quinlan提出提出ID3算法,引进信息论中的有关思想,提出用信息算法,引进信息论中的有关
6、思想,提出用信息增益增益(information gain)作为特征判别能力的度量,来选择属性作为决策作为特征判别能力的度量,来选择属性作为决策树的节点,并将建树的方法嵌在一个迭代的程序之中。当时他的主要目树的节点,并将建树的方法嵌在一个迭代的程序之中。当时他的主要目的在于减少树的深度,却忽略了叶子数目的研究。的在于减少树的深度,却忽略了叶子数目的研究。1975年和年和1984年,分年,分别有人提出了别有人提出了CHAID和和CART算法。算法。1986年,年,J.C.Schlinner提出提出ID4算算法。法。1988年,年,P.E.Utgoff 提出提出ID5R算法。算法。1993年,年,
7、Quinlan本人以本人以ID3算算法为基础研究出法为基础研究出C4.5算法。新算法在对预测变量的缺失值处理、剪枝技算法。新算法在对预测变量的缺失值处理、剪枝技术、派生规则等方面作了较大的改进,术、派生规则等方面作了较大的改进,C5.0是是C4.5的商业改进版。的商业改进版。例子例子关于上关于上mooc的例子的例子例子例子4.1.1 决策树的基本知识决策树的基本知识决策树技术发现数据模式和规则的核心是决策树技术发现数据模式和规则的核心是归纳算法归纳算法。归纳是从特殊到一般的过程。归纳是从特殊到一般的过程。归纳推理从若干个事实表征出的特征、特性或属性中归纳推理从若干个事实表征出的特征、特性或属性
8、中,通过比较、总结、概括而得出一个规律性的结论。通过比较、总结、概括而得出一个规律性的结论。归纳学习的过程就是寻找一般化描述归纳学习的过程就是寻找一般化描述(归纳断言归纳断言)的过程。的过程。这种一般化描述能够解释给定的输入数据,并可以用来这种一般化描述能够解释给定的输入数据,并可以用来预测预测新的数据。新的数据。归纳学习由于依赖于经验数据,因此又称作归纳学习由于依赖于经验数据,因此又称作经验学习经验学习。4.1.1 决策树的基本知识决策树的基本知识-2归纳学习存在一个基本假定归纳学习存在一个基本假定:任一模型如果能在足够大的任一模型如果能在足够大的训练样本集训练样本集中很好地逼近中很好地逼近
9、目标函数,则它也能在目标函数,则它也能在未见样本未见样本中很好地逼近目标函数。中很好地逼近目标函数。这个假定是归纳学习这个假定是归纳学习有效性的前提条件有效性的前提条件。4.1.1 决策树的基本知识决策树的基本知识-2归纳可以分为自下而上、自上而下和双向搜索三种方式归纳可以分为自下而上、自上而下和双向搜索三种方式自下而上法一次处理一个输入对象,将描述逐步自下而上法一次处理一个输入对象,将描述逐步一般化,直到最终的一般化描述。一般化,直到最终的一般化描述。自上而下法则对可能的一般化描述集进行搜索,试图自上而下法则对可能的一般化描述集进行搜索,试图找到一些满足一定要求的最优的描述。找到一些满足一定
10、要求的最优的描述。双向搜索方式则是这两者的结合。双向搜索方式则是这两者的结合。4.1.1 决策树的基本知识决策树的基本知识-2先根据先根据训练子集训练子集形成决策树,如果该树不能对所有对象形成决策树,如果该树不能对所有对象给出正确的分类,那么选择一些例外给出正确的分类,那么选择一些例外加入到训练集中,重复该过程一直到形成正确的决策集。加入到训练集中,重复该过程一直到形成正确的决策集。最终结果是最终结果是“一棵树一棵树”,各分枝对应某种属性的某一可,各分枝对应某种属性的某一可能值。能值。4.1.1 决策树的基本知识决策树的基本知识决策树通常有两大类型,分别为决策树通常有两大类型,分别为分类决策树
11、分类决策树和和回归决策树回归决策树。分类决策树用来实现对定类或定序目标变量的分类,分类决策树用来实现对定类或定序目标变量的分类,回归决策树则完成对定距目标变量取值的预测。回归决策树则完成对定距目标变量取值的预测。根据决策树各种不同的属性,可分为以下几类根据决策树各种不同的属性,可分为以下几类:l 决策树内节点的测试属性可能是单变量的,即每个内节点只包含一个决策树内节点的测试属性可能是单变量的,即每个内节点只包含一个 属性属性;也可能是多变量的,既存在包含多个属性的内节点。也可能是多变量的,既存在包含多个属性的内节点。l 测试属性的不同属性值的个数,可能使得每个内节点有两个或多个测试属性的不同属
12、性值的个数,可能使得每个内节点有两个或多个 分枝。如果一棵决策树每个内节点只有两个分枝则称之为二叉分枝。如果一棵决策树每个内节点只有两个分枝则称之为二叉 决策树,如由决策树,如由CART算法生成的决策树。算法生成的决策树。l 每个属性可能是值类型每个属性可能是值类型(连续值连续值),也可能是枚举类型,也可能是枚举类型(离散值离散值)。l 分类结果既可能是两类也有可能是多类,如果二叉决策树的结果只有分类结果既可能是两类也有可能是多类,如果二叉决策树的结果只有 两类,则称之为布尔决策树。两类,则称之为布尔决策树。4.1.1 决策树的基本知识决策树的基本知识决策树学习是应用最广的归纳推理算法之一。它
13、是一种决策树学习是应用最广的归纳推理算法之一。它是一种逼近离散函数值的方法,分类精度高,操作简单,并且对逼近离散函数值的方法,分类精度高,操作简单,并且对噪噪声数据声数据有很好的稳健性,因而成为比较实用且比较流行的数有很好的稳健性,因而成为比较实用且比较流行的数据挖掘算法。据挖掘算法。它的最大优点是,在学习过程中不需要使用者了解很多它的最大优点是,在学习过程中不需要使用者了解很多背景知识,只要训练样本集能够用背景知识,只要训练样本集能够用“属性属性-值值”的方式表达的方式表达出来就能使用决策树学习算法来分类。出来就能使用决策树学习算法来分类。4.1.1 决策树的基本知识决策树的基本知识4.2.
14、4 属性选择属性选择属性选择的统计度量属性选择的统计度量(又称为又称为分枝指标分枝指标splitting index,SI)的计算是决策树构建算法的的计算是决策树构建算法的关键关键。不同的决策树算法采用不同的统计度量,主要有不同的决策树算法采用不同的统计度量,主要有:l 信息增益信息增益Information Gain(ID3和和C4.5算法使用算法使用),所有属性假设都是所有属性假设都是种类字段种类字段,经过修改之后可以适用于,经过修改之后可以适用于 数值字段数值字段;l 基尼指数基尼指数Gini index(即即Gini指标指标)CART算法、算法、CHAID算法和算法和SLIQ算法使用算
15、法使用 适用于种类和数值字段等等。适用于种类和数值字段等等。4.1.1 决策树的基本知识决策树的基本知识-2决策树方法的决策树方法的(相对相对)优点优点:l可以生成可理解的规则可以生成可理解的规则数据挖掘产生的模式的可理解度是判别数据挖掘算法的数据挖掘产生的模式的可理解度是判别数据挖掘算法的主要指标之一,相比于一些数据挖掘算法,决策树算法主要指标之一,相比于一些数据挖掘算法,决策树算法产生的规则比较容易理解,并且决策树模型的建立过程产生的规则比较容易理解,并且决策树模型的建立过程也很直观。也很直观。l计算量较小。计算量较小。l可以处理连续和集合属性。可以处理连续和集合属性。l决策树的输出包含属
16、性的排序决策树的输出包含属性的排序生成决策树时,按照最大信息增益选择测试属性,生成决策树时,按照最大信息增益选择测试属性,因此,在决策树中可以大致判断属性的相对重要性。因此,在决策树中可以大致判断属性的相对重要性。4.1.1 决策树的基本知识决策树的基本知识-2决策树方法的缺点决策树方法的缺点:l对于具有连续值的属性预测比较困难。对于具有连续值的属性预测比较困难。-l对于顺序相关的数据,需要很多预处理的工作。对于顺序相关的数据,需要很多预处理的工作。l当类别太多时,通常会增加误差当类别太多时,通常会增加误差l分枝间的拆分不够平滑,进行拆分时,不考虑其对将来拆分的影响。分枝间的拆分不够平滑,进行
17、拆分时,不考虑其对将来拆分的影响。l缺值数据处理问题缺值数据处理问题:因为决策树进行分类预测时,完全基于数据的测因为决策树进行分类预测时,完全基于数据的测试属性,所以对于测试属性缺失的数据,决策树将无法处理。试属性,所以对于测试属性缺失的数据,决策树将无法处理。l通常仅根据单个属性来分类通常仅根据单个属性来分类:决策树方法根据单个属性对数据进行决策树方法根据单个属性对数据进行分类,而在实际的分类系统中,类的划分不仅仅与单个属性有关,分类,而在实际的分类系统中,类的划分不仅仅与单个属性有关,往往与一个属性集有关。因此,将决策树算法推广到考虑多属性往往与一个属性集有关。因此,将决策树算法推广到考虑
18、多属性是一个有待研究的课题。是一个有待研究的课题。4.1.1 决策树的基本知识决策树的基本知识-2决策树学习算法适用的问题决策树学习算法适用的问题:l样本可以用样本可以用“属性属性-值值”的方式来描述的方式来描述l目标函数的输出值为离散值目标函数的输出值为离散值l训练数据中允许包含有错误训练数据中允许包含有错误:样本的分类错误或属性值错误都允许样本的分类错误或属性值错误都允许l训练数据中有样本属性值缺失训练数据中有样本属性值缺失4.1 决策树介绍决策树介绍-24.1.2 决策树的应用和发展趋势决策树的应用和发展趋势决策树由于结构简单、效率高等优点而获得了广泛的应用。决策树由于结构简单、效率高等
19、优点而获得了广泛的应用。决策树在决策树在商业、工业、天文、医学、风险分析、社会科学和分类商业、工业、天文、医学、风险分析、社会科学和分类学学等领域的应用已经取得了很好的经济和社会效益。等领域的应用已经取得了很好的经济和社会效益。国内目前有关决策树的研究多是围绕算法的改进以及决策树在商国内目前有关决策树的研究多是围绕算法的改进以及决策树在商业、工业等领域的运用。业、工业等领域的运用。l 在商业领域,决策树方法所能解决的典型商业问题有在商业领域,决策树方法所能解决的典型商业问题有:客户关系客户关系 管理、数据库营销、客户群体划分、交叉销售等市场分析管理、数据库营销、客户群体划分、交叉销售等市场分析
展开阅读全文