数据挖掘导论第4章分类:基本概念、决策树与模型评估课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘导论第4章分类:基本概念、决策树与模型评估课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 导论 分类 基本概念 决策树 模型 评估 课件
- 资源描述:
-
1、数据挖掘数据挖掘 分类:基本概念、决策树与模型评价分类:基本概念、决策树与模型评价第4章 分类:基本概念、决策树与模型评价分类:基本概念、决策树与模型评价l 分类的是利用一个分类函数(分类模型分类的是利用一个分类函数(分类模型、分类器),该模型能把数据库中的数据影射、分类器),该模型能把数据库中的数据影射到给定类别中的一个。到给定类别中的一个。分类分类l训练集:数据库中为建立模型而被分析的数训练集:数据库中为建立模型而被分析的数据元组形成训练集。据元组形成训练集。l训练集中的单个元组称为训练集中的单个元组称为训练样本训练样本,每个训每个训练样本有一个类别标记。练样本有一个类别标记。l一个具体样
2、本的形式可为一个具体样本的形式可为:(v1,v2,.,:(v1,v2,.,vnvn;c);c);其中其中vivi表示属性值表示属性值,c,c表示类别。表示类别。l测试集:用于评估分类模型的准确率测试集:用于评估分类模型的准确率数据分类数据分类一个两步过程一个两步过程(1)l第一步,建立一个模型,描述预定数据类集和概念集 假定每个元组属于一个预定义的类,由一个类标号属性确定 学习模型可以用分类规则、决策树或数学公式的形式提供数据分类数据分类一个两步过程一个两步过程(2)l第二步,使用模型,对将来的或未知的对象进行分类 首先评估模型的预测准确率u对每个测试样本,将已知的类标号和该样本的学习模型类预
3、测比较u模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比u测试集要独立于训练样本集,否则会出现“过分适应数据”的情况l如果准确性能被接受,则分类规则就可用来对新如果准确性能被接受,则分类规则就可用来对新数据进行分类数据进行分类 有监督的学习有监督的学习 VS.无监督的学习无监督的学习l有监督的学习(用于分类)模型的学习在被告知每个训练样本属于哪个类的“监督”下进行 新数据使用训练数据集中得到的规则进行分类l无监督的学习(用于聚类)每个训练样本的类编号是未知的,要学习的类集合或数量也可能是事先未知的 通过一系列的度量、观察来建立数据中的类编号或进行聚类分类模型的构造方法分类模型的构造
4、方法l1.1.机器学习方法:机器学习方法:l决策树法决策树法l规则归纳规则归纳l2.2.统计方法:统计方法:知识表示是判别函数和原型事例知识表示是判别函数和原型事例l贝叶斯法贝叶斯法l非参数法非参数法(近邻学习或基于事例的学习近邻学习或基于事例的学习)l3.3.神经网络方法神经网络方法:lBPBP算法算法,模型表示是前向反馈神经网络模型模型表示是前向反馈神经网络模型l4.4.粗糙集粗糙集(rough set)(rough set)知识表示是产生式规则知识表示是产生式规则一个决策树的例子一个决策树的例子categoricalcategoricalcontinuousclassRefundMarS
5、tTaxIncYESNONONOYesNoMarried Single,Divorced 80KSplitting Attributes训练数据训练数据模型模型:决策树决策树决策树的另一个例子决策树的另一个例子TidRefundMaritalStatusTaxableIncomeCheat1YesSingle125KNo2NoMarried100KNo3NoSingle70KNo4YesMarried120KNo5NoDivorced95KYes6NoMarried60KNo7YesDivorced220KNo8NoSingle85KYes9NoMarried75KNo10NoSingle90
6、KYes10categoricalcategoricalcontinuousclassMarStRefundTaxIncYESNONONOYesNoMarried Single,Divorced 80K用决策树归纳分类用决策树归纳分类l什么是决策树?类似于流程图的树结构 每个内部节点表示在一个属性上的测试 每个分枝代表一个测试输出 每个树叶节点代表类或类分布l决策树的生成由两个阶段组成 决策树构建u开始时,所有的训练样本都在根节点u递归的通过选定的属性,来划分样本(必须是离散值)树剪枝u许多分枝反映的是训练数据中的噪声和孤立点,树剪枝试图检测和剪去这种分枝l决策树的使用:对未知样本进行分类 通
7、过将样本的属性值与决策树相比较l 为了对未知数据对象进行分类识别,可以为了对未知数据对象进行分类识别,可以根据决策树的结构对数据集中的属性进行测根据决策树的结构对数据集中的属性进行测试,从试,从决策树的根节点到叶节点的一条路径决策树的根节点到叶节点的一条路径就形成了相应对象的类别测试。决策树可以就形成了相应对象的类别测试。决策树可以很容易转换为分类规则很容易转换为分类规则决策树分类任务决策树分类任务Decision Tree一个决策树的例子一个决策树的例子categoricalcategoricalcontinuousclassRefundMarStTaxIncYESNONONOYesNoMa
8、rried Single,Divorced 80KSplitting Attributes训练数据训练数据模型模型:决策树决策树应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K?10 测试数据测试数据Start from the root of tree.应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single
9、,Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K?10 测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K?10 测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced
10、80KRefund Marital Status Taxable Income Cheat No Married 80K?10 测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KRefund Marital Status Taxable Income Cheat No Married 80K?10 测试数据测试数据应用决策树进行分类应用决策树进行分类RefundMarStTaxIncYESNONONOYesNoMarried Single,Divorced 80KRefund
11、Marital Status Taxable Income Cheat No Married 80K?10 测试数据测试数据Assign Cheat to“No”决策树分类决策树分类Decision Tree决策树决策树l有许多决策树算法:(ID3)(C4.5)(SLIQ,SPRINT)Hunt 算法算法l设 Dt 是与结点 t相关联的训练记录集l算法步骤:如果Dt 中所有记录都属于同一个类 yt,则t是叶结点,用yt标记 如果 Dt 中包含属于多个类的记录,则选择一个属性测试条件,将记录划分成较小的子集。对于测试条件的每个输出,创建一个子结点,并根据测试结果将Dt中的记录分布到子结点中。然后
12、,对于每个子结点,递归地调用该算法Dt?Hunt算法算法Dont CheatRefundDont CheatDont CheatYesNoRefundDont CheatYesNoMaritalStatusDont CheatCheatSingle,DivorcedMarriedTaxableIncomeDont Cheat=80KRefundDont CheatYesNoMaritalStatusDont CheatCheatSingle,DivorcedMarried决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的
13、设计问题 如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程决策树决策树lHunt算法采用贪心策略构建决策树.在选择划分数据的属性时,采取一系列局部最优决策来构造决策树.l决策树归纳的设计问题 如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程怎样为不同类型的属性指定测试条件怎样为不同类型的属性指定测试条件?l依赖于属性的类型 标称 序数 连续l依赖于划分的路数 2路划分 多路划分基于标称属性的分裂基于标称属性的分裂l多路划分:划分数(输出数)取决于该属性不同属性值的个数.l二元划分:划分数为2,这种划分要考虑
14、创建k个属性值的二元划分的所有2k-1-1种方法.CarTypeFamilySportsLuxuryCarTypeFamily,LuxurySportsCarTypeSports,LuxuryFamilyORCarTypeFamily,SportsLuxury l多路划分:划分数(输出数)取决于该属性不同属性值的个数.l二元划分:划分数为2,需要保持序数属性值的有序性.基于序数属性的划分基于序数属性的划分SizeSmallMediumLargeSizeMedium,LargeSmallSizeSmall,MediumLargeORSizeSmall,LargeMedium基于连续属性的划分基于
15、连续属性的划分l多路划分:viAvi+1(i=1,k)l二元划分:(A v)or(A v)考虑所有的划分点,选择一个最佳划分点v基于连续属性的划分基于连续属性的划分决策树决策树l决策树归纳的设计问题 如何分裂训练记录u怎样为不同类型的属性指定测试条件?u怎样评估每种测试条件?如何停止分裂过程怎样选择最佳划分?怎样选择最佳划分?在划分前在划分前:10 个记录个记录 class 0,10 个记录个记录 class 1怎样选择最佳划分?怎样选择最佳划分?l选择最佳划分的度量通常是根据划分后子结点不纯性的程度。不纯性的程度越低,类分布就越倾斜 l结点不纯性的度量:不纯性大不纯性大不纯性小不纯性小怎样找
16、到最佳划分?怎样找到最佳划分?B?YesNoNode N3Node N4A?YesNoNode N1Node N2划分前划分前:M0M1M2M3M4M12M34Gain=M0 M12 vs M0 M34结点不纯性的测量结点不纯性的测量lGinilEntropylclassification error不纯性的测量不纯性的测量:GINIl给定结点t的Gini值计算:(p(j|t)是在结点t中,类j发生的概率).当类分布均衡时,Gini值达到最大值(1-1/nc)相反当只有一个类时,Gini值达到最小值0jtjptGINI2)|(1)(C10C26Gini=0.000C12C24Gini=0.44
17、4C13C23Gini=0.500C11C25Gini=0.278计算计算 GINI的例子的例子C1 0 C2 6 C1 2 C2 4 C1 1 C2 5 P(C1)=0/6=0 P(C2)=6/6=1Gini=1 P(C1)2 P(C2)2=1 0 1=0 jtjptGINI2)|(1)(P(C1)=1/6 P(C2)=5/6Gini=1 (1/6)2 (5/6)2=0.278P(C1)=2/6 P(C2)=4/6Gini=1 (2/6)2 (4/6)2=0.444基于基于 GINI的划分的划分l当一个结点 p 分割成 k 个部分(孩子),划分的质量可由下面公式计算 ni=孩子结点 i的记录
18、数,n =父结点 p的记录数.kiisplitiGINInnGINI1)(二元属性二元属性:计算计算 GINIl对于二元属性,结点被划分成两个部分l得到的GINI值越小,这种划分越可行.B?YesNoNode N1Node N2 Parent C1 6 C2 6 Gini=0.500 N1 N2 C1 5 1 C2 2 4 Gini=0.333 Gini(N1)=1 (5/6)2 (2/6)2=0.194 Gini(N2)=1 (1/6)2 (4/6)2=0.528Gini split=7/12*0.194+5/12*0.528=0.333标称属性标称属性:计算计算Ginil多路划分l二元划分
19、l一般多路划分的Gini值比二元划分小,这一结果并不奇怪,因为二元划分实际上合并了多路划分的某些输出,自然降低了子集的纯度CarTypeSports,LuxuryFamilyC131C224Gini0.400CarTypeSportsFamily,LuxuryC122C215Gini0.419CarTypeFamily Sports LuxuryC1121C2411Gini0.393Multi-way splitTwo-way split(find best partition of values)连续属性连续属性:计算计算 Ginil使用二元划分l划分点v选择 N个记录中所有属性值作为划分点
展开阅读全文