机器学习导论-第6章决策树.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习导论-第6章决策树.ppt》由用户(最好的沉淀)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习导论-第6章 决策树 机器 学习 导论
- 资源描述:
-
1、第第6章章 决策树决策树n熟悉决策树的概念以及决策树的生成策略。熟悉决策树的概念以及决策树的生成策略。n熟悉熟悉ID3、C4.5、CART算法中所用的特征选择指标算法中所用的特征选择指标。n了解了解ID3、C4.5、CART三种算法的优缺点及适用场合。三种算法的优缺点及适用场合。n了解决策树的剪枝处理方法。了解决策树的剪枝处理方法。n熟悉决策树的优缺点。熟悉决策树的优缺点。本章学习目标本章学习目标n6.1 概述概述n6.2 决策树学习决策树学习n6.3 特征(或属性)选择特征(或属性)选择n6.4 ID3算法算法n6.5 C4.5算法算法n6.6 CART算法算法n6.7 决策树的剪枝决策树的
2、剪枝n6.8 决策树的优缺点决策树的优缺点第第6章章 决策树决策树6.1 概述概述n决策树决策树:从训练数据中学习得出一个树状结构的模型,从训练数据中学习得出一个树状结构的模型,由一系列由一系列节点节点和和分支分支组成。组成。n节点节点代表决策或学习过程中所考虑的特征代表决策或学习过程中所考虑的特征(或属性或属性),而不同特征,而不同特征(或属性或属性)的值形成不同的的值形成不同的分支分支。n节点节点分为分为根节点根节点、内部节点内部节点和和叶子节点叶子节点。n根节点根节点:决策树开始的第一个节点。:决策树开始的第一个节点。n叶子节点叶子节点:是分支的终点,包含学习或决策结果。:是分支的终点,
3、包含学习或决策结果。n决策树决策树属于属于判别模型判别模型,通过把数据样本划分到某个叶子结点来确定数据通过把数据样本划分到某个叶子结点来确定数据集中样本所属的集中样本所属的类别类别。n决策树的决策过程从决策树的决策过程从根节点根节点开始,每进行一次划分,都会在树的开始,每进行一次划分,都会在树的内部节内部节点点处用某一特征处用某一特征(或属性或属性)值进行判断,根据判断结果值进行判断,根据判断结果选择输出分支,选择输出分支,直到到达直到到达叶子节点叶子节点,将叶子节点存放的类别作为决策结果。将叶子节点存放的类别作为决策结果。6.1 概述概述6.1 概述概述n决策树算法包括:决策树算法包括:nC
4、LS,ID3,C4.5,CARTn算法的发展过程算法的发展过程n1966年,年,Hunt、Marin和和Stone 提出的提出的的概念学习系统概念学习系统(Concept Learning System,CLS)就有了决策树的概念。就有了决策树的概念。n1979年年,J.R.Quinlan 提出提出ID3算法原型。算法原型。n1983年和年和1986年,年,J.R.Quinlan对对ID3 进行了总结和简化,使进行了总结和简化,使其成为决策树学习算法的典型。其成为决策树学习算法的典型。n1986年,年,Schlimmer 和和 Fisher 对对ID3进行改进,发展成进行改进,发展成 ID4算
5、算法。法。n1993年,年,Quinlan 进一步发展了进一步发展了ID3算法,改进成算法,改进成C4.5算法。算法。nID3算法的另一个分支是分类与回归树(算法的另一个分支是分类与回归树(CART)。与)。与C4.5算算法只能支持分类模型不同,法只能支持分类模型不同,CART 同时支持分类模型和回归同时支持分类模型和回归模型。模型。6.1 概述概述n6.1 概述概述n6.2 决策树学习决策树学习n6.3 特征(或属性)选择特征(或属性)选择n6.4 ID3算法算法n6.5 C4.5算法算法n6.6 CART算法算法n6.7 决策树的剪枝决策树的剪枝n6.8 决策树的优缺点决策树的优缺点第第6
6、章章 决策树决策树6.2 决策树学习决策树学习n决策树决策树模型的构建主要涉及三个方面模型的构建主要涉及三个方面:特征特征(或属性或属性)选择、递选择、递归划分、剪枝。归划分、剪枝。n特征特征(或属性或属性)选择选择 决策树生成时,需要从训练样本的多个特征决策树生成时,需要从训练样本的多个特征 (或属性或属性)中选取一个作为当前节点的划分标准。常用的特征选择中选取一个作为当前节点的划分标准。常用的特征选择指标有指标有信息增益信息增益、信息增益比信息增益比、基尼指数基尼指数等。等。n递归划分递归划分 根据每个节点选择的特征根据每个节点选择的特征 (或属性或属性),从根节点开始,从根节点开始,递归
7、地产生子节点,直到样本不可分产生叶子节点,决策树停止递归地产生子节点,直到样本不可分产生叶子节点,决策树停止生长。生长。n剪枝剪枝 完全划分的决策树易产生过拟合问题,剪枝操作可以缩小树完全划分的决策树易产生过拟合问题,剪枝操作可以缩小树的结构规模,提高决策树的泛化能力。的结构规模,提高决策树的泛化能力。n6.1 概述概述n6.2 决策树学习决策树学习n6.3 特征(或属性)选择特征(或属性)选择n6.4 ID3算法算法n6.5 C4.5算法算法n6.6 CART算法算法n6.7 决策树的剪枝决策树的剪枝n6.8 决策树的优缺点决策树的优缺点第第6章章 决策树决策树6.3 特征(或属性)选择特征
8、(或属性)选择n决策树决策树的核心内容是在每一个非叶子节点如何选择最优的的核心内容是在每一个非叶子节点如何选择最优的特征特征(或属性或属性)对样本进行划分。对样本进行划分。n一般而言,随着划分过程不断进行,我们希望决策树的分一般而言,随着划分过程不断进行,我们希望决策树的分支节点所包含的样本支节点所包含的样本尽可能属于同一类别,即节点的尽可能属于同一类别,即节点的“纯纯度度”(purity)越来越高。越来越高。n在实际建立决策树的过程中,每次特征选择时,通常采用在实际建立决策树的过程中,每次特征选择时,通常采用信息增益信息增益、信息增益比信息增益比、基尼指数基尼指数等作为特征等作为特征(或属性
9、或属性)选选择的指标。择的指标。122111(,.,)()()log()nnniiiiiI a aaI ap ap a)(1log)()(2iiiapapaIn1948年年Shannon 提出信息论。提出信息论。n熵熵(entropy):信息量大小的度量,即表示随机变量不确:信息量大小的度量,即表示随机变量不确定性的度量。定性的度量。n熵的熵的通俗解释通俗解释:事件:事件 的信息量的信息量 可度量为可度量为n其中其中 表示事件表示事件 发生的概率。发生的概率。n假设有假设有n个互不相容的事件个互不相容的事件 ,它们中有它们中有且仅有一个发生,则其平均的信息量(熵)可度量为且仅有一个发生,则其平
10、均的信息量(熵)可度量为n6.3.1信息增益信息增益6.3 特征(或属性)选择特征(或属性)选择n熵越大,随机变量的不确定性越大。熵越大,随机变量的不确定性越大。n当当X为为1,0分布时:分布时:n熵:熵:6.3 特征(或属性)选择特征(或属性)选择n6.3.1信息增益信息增益n设有随机变量设有随机变量(X,Y),其联合概率分布为:其联合概率分布为:n条件熵条件熵H(Y|X):表示在己知随机变量:表示在己知随机变量X的条件下随机变量的条件下随机变量Y的不确定的不确定性,定义为性,定义为X给定条件下给定条件下Y的条件概率分布的熵对的条件概率分布的熵对X的数学期望:的数学期望:n当熵和条件熵中的概
11、率由数据估计(特别是极大似然估计)得到时,当熵和条件熵中的概率由数据估计(特别是极大似然估计)得到时,所对应的熵与条件熵分别称为所对应的熵与条件熵分别称为经验熵经验熵(empirical entropy)和和经验条件经验条件熵熵(empirical conditional entropy)6.3 特征(或属性)选择特征(或属性)选择n6.3.1信息增益信息增益n信息信息增益增益的定义的定义:特征特征A对训练数据集对训练数据集D的信息的信息增益增益 g(D,A)定义为集定义为集合合D的经验熵的经验熵H(D)与特征与特征A给定条件下给定条件下D的经验条件熵的经验条件熵H(D|A)之差,之差,即即
12、g(D,A)=H(D)-H(D|A)n信息增益信息增益(Information gain)表示得知特征表示得知特征X的信息而使得类的信息而使得类Y的信息的信息的不确定性减少的的不确定性减少的程度。程度。n般地,熵般地,熵H(Y)与条件熵与条件熵H(Y|X)之差称为之差称为互信息互信息(mutual information)。n决策树决策树学习中的学习中的信息增益信息增益等价于训练数据集中类与特征的等价于训练数据集中类与特征的互信息互信息。6.3 特征(或属性)选择特征(或属性)选择n6.3.1信息增益信息增益n设训练数据集为设训练数据集为Dn|D|表示其样本容量,即样本个数表示其样本容量,即样
13、本个数n设有设有K个类个类Ck,k=1,2,K,n|Ck|为属于类为属于类Ck的样本个数的样本个数n特征特征A有有n个不同的个不同的 取值取值a1,a2an根据特征根据特征A的取的取值将值将D划分为划分为n个子集个子集D1.。Dnn|Di|为为 Di的样本个数的样本个数n记子集记子集Di中属于类中属于类Ck的样本集合为的样本集合为Dikn|Dik|为为Dik的样本个数的样本个数n信息增益的计算信息增益的计算6.3 特征(或属性)选择特征(或属性)选择n输入:训练数据集输入:训练数据集D和特征和特征A;n输出:特征输出:特征A对训练数据集对训练数据集D的的信息增益信息增益g(D,A)(1)计算数
14、据集)计算数据集D的经验熵的经验熵H(D)(2)计算特征)计算特征A对数据集对数据集D的经验条件熵的经验条件熵H(D|A)(3)计算信息增益)计算信息增益6.3 特征(或属性)选择特征(或属性)选择n信息增益的计算信息增益的计算经验经验熵熵数量是否经验熵15960.9716.3 特征(或属性)选择特征(或属性)选择n信息增益的计算信息增益的计算年龄年龄有工作有工作有房子有房子 信用信用类别类别0 0青年青年否否否否一般一般否否1 1青年青年否否否否好好否否2 2青年青年是是否否好好是是3 3青年青年是是是是一般一般是是4 4青年青年否否否否一般一般否否5 5中年中年否否否否一般一般否否6 6中
15、年中年否否否否好好否否7 7中年中年是是是是好好是是8 8中年中年否否是是非常好非常好是是9 9中年中年否否是是非常好非常好是是1010老年老年否否是是非常好非常好是是1111老年老年否否是是好好是是1212老年老年是是否否好好是是1313老年老年是是否否非常好非常好是是1414老年老年否否否否一般一般否否按年龄划分年龄年龄有工作有工作有房子有房子 信用信用类别类别0 0青年青年否否否否一般一般否否1 1青年青年否否否否好好否否2 2青年青年是是否否好好是是3 3青年青年是是是是一般一般是是4 4青年青年否否否否一般一般否否5 5中年中年否否否否一般一般否否6 6中年中年否否否否好好否否7 7
16、中年中年是是是是好好是是8 8中年中年否否是是非常好非常好是是9 9中年中年否否是是非常好非常好是是1010老年老年否否是是非常好非常好是是1111老年老年否否是是好好是是1212老年老年是是否否好好是是1313老年老年是是否否非常好非常好是是1414老年老年否否否否一般一般否否年龄年龄数量数量是是否否经验熵经验熵青年青年5 52 23 30.97100.9710中年中年5 53 32 20.97100.9710老年老年5 54 41 10.72190.7219年龄年龄有工作有工作有房子有房子信用信用6.3 特征(或属性)选择特征(或属性)选择n信息增益的计算信息增益的计算经验条件熵经验条件熵
17、6.3 特征(或属性)选择特征(或属性)选择n信息增益的计算信息增益的计算年龄年龄有工作有工作有房子有房子信用信用年龄年龄数量数量是是否否经验熵经验熵青年青年5 52 23 30.97100.9710中年中年5 53 32 20.97100.9710老年老年5 54 41 10.72190.7219年龄年龄有工作有工作有房子有房子 信用信用类别类别0 0青年青年否否否否一般一般否否1 1青年青年否否否否好好否否2 2青年青年是是否否好好是是3 3青年青年是是是是一般一般是是4 4青年青年否否否否一般一般否否5 5中年中年否否否否一般一般否否6 6中年中年否否否否好好否否7 7中年中年是是是是好
18、好是是8 8中年中年否否是是非常好非常好是是9 9中年中年否否是是非常好非常好是是1010老年老年否否是是非常好非常好是是1111老年老年否否是是好好是是1212老年老年是是否否好好是是1313老年老年是是否否非常好非常好是是1414老年老年否否否否一般一般否否信息增益信息增益6.3 特征(或属性)选择特征(或属性)选择n信息增益的计算信息增益的计算年龄年龄有工作有工作有房子有房子 信用信用类别类别0 0青年青年否否否否一般一般否否1 1青年青年否否否否好好否否2 2青年青年是是否否好好是是3 3青年青年是是是是一般一般是是4 4青年青年否否否否一般一般否否5 5中年中年否否否否一般一般否否6
展开阅读全文