数据库课件:第十一讲 分类方法 .ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据库课件:第十一讲 分类方法 .ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据库课件:第十一讲 分类方法 数据库 课件 第十一 分类 方法
- 资源描述:
-
1、1第十一讲第十一讲 分类方法分类方法本讲讲授目标:本讲讲授目标:1. 分类的基本概念分类的基本概念2. 决策树方法决策树方法 3. 决策树方法的评价决策树方法的评价 2一. 分类的基本概念分类的基本概念 数据分类(数据分类(data classfication)是数据挖)是数据挖掘的主要内容之一,主要是通过分析训练掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这数据样本,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用来对种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。未来的数据进行分类和预测。 3数据分类过程数据分类过程第第1步:建立一个模型,
2、描述给定的数据类集步:建立一个模型,描述给定的数据类集或概念集(简称训练集)。或概念集(简称训练集)。 通过分析由属性描述的数据库元组来构造模型。通过分析由属性描述的数据库元组来构造模型。用于建立模型的元组集称为训练数据集,其中用于建立模型的元组集称为训练数据集,其中每个元组称为训练样本。如果训练样本的类别每个元组称为训练样本。如果训练样本的类别是未知的,则称为无指导的学习(聚类)。学是未知的,则称为无指导的学习(聚类)。学习模型可用分类规则、决策树和数学公式的形习模型可用分类规则、决策树和数学公式的形式给出。式给出。第第2步:使用模型对数据进行分类。包括评估步:使用模型对数据进行分类。包括评
3、估模型的分类准确性以及对类标号未知的模型的分类准确性以及对类标号未知的元组按模型进行分类。元组按模型进行分类。4数据分类过程数据分类过程训练数据训练数据分类算法分类算法分类规则分类规则(a) 学习学习分类规则分类规则新数据新数据测试数据测试数据(b) 分类分类5常用的分类规则挖掘方法常用的分类规则挖掘方法 分类规则的挖掘通常有以下几种方法分类规则的挖掘通常有以下几种方法 决策树方法决策树方法 贝叶斯方法贝叶斯方法 人工神经网络方法人工神经网络方法 约略集方法约略集方法 遗传算法遗传算法典型的分类规则挖掘算法有:典型的分类规则挖掘算法有: ID3 C4.5 DBlearn等等 6分类方法的评估标
4、准分类方法的评估标准 准确率:模型正确预测新数据类标号的能力。准确率:模型正确预测新数据类标号的能力。 速度:产生和使用模型花费的时间。速度:产生和使用模型花费的时间。 健壮性:有噪声数据或空缺值数据时模型正确健壮性:有噪声数据或空缺值数据时模型正确分类或预测的能力。分类或预测的能力。 伸缩性:对于给定的大量数据,有效地构造模伸缩性:对于给定的大量数据,有效地构造模型的能力。型的能力。 可解释性:学习模型提供的理解和观察的层次。可解释性:学习模型提供的理解和观察的层次。7二. 决策树方法决策树方法 决策树(决策树(Decision Tree)又称为判定树,是运用)又称为判定树,是运用于分类的一
5、种树结构。其中的每个内部结点于分类的一种树结构。其中的每个内部结点(internal node)代表对某个属性的一次测试,)代表对某个属性的一次测试,每条边代表一个测试结果,叶结点(每条边代表一个测试结果,叶结点(leaf)代表)代表某个类(某个类(class)或者类的分布()或者类的分布(class distribution),最上面的结点是根结点。),最上面的结点是根结点。 决策树提供了一种展示类似在什么条件下会得到决策树提供了一种展示类似在什么条件下会得到什么值这类规则的方法。什么值这类规则的方法。 决策树的基本组成部分:决策结点、分支和叶结决策树的基本组成部分:决策结点、分支和叶结点。
6、点。8下图给出了一个商业上使用的决策树的例子。它表示了一个下图给出了一个商业上使用的决策树的例子。它表示了一个关心电子产品的用户是否会购买关心电子产品的用户是否会购买PC(buys_computer)的)的知识,用它可以预测某条记录(某个人)的购买意向。知识,用它可以预测某条记录(某个人)的购买意向。 Age? Credit_rating? student? yes no yes yes no 40 3040 yes no fair excellent 每个内部结点(方形框)代表对某个属性的一次检测。每个叶结点每个内部结点(方形框)代表对某个属性的一次检测。每个叶结点(椭圆框)代表一个类:(椭
7、圆框)代表一个类:buys_computers=yes 或者或者 buys_computers=no在这个例子中,样本向量为:在这个例子中,样本向量为: (age, student, credit_rating; buys_computers)被决策数据的格式为被决策数据的格式为:(age, student, credit_rating)输入新的被决策的记录,可以预测该记录隶属于哪个类。输入新的被决策的记录,可以预测该记录隶属于哪个类。9ID3算法算法 ID3算法的基本思想描述如下:算法的基本思想描述如下:step 1任意选取一个属性作为决策树的根结点,任意选取一个属性作为决策树的根结点,然后
8、就这个属性所有的取值创建树的分支;然后就这个属性所有的取值创建树的分支;step 2用这棵树来对训练数据集进行分类,如果用这棵树来对训练数据集进行分类,如果一个叶结点的所有实例都属于同一类,则以该类一个叶结点的所有实例都属于同一类,则以该类为标记标识此叶结点;如果所有的叶结点都有类为标记标识此叶结点;如果所有的叶结点都有类标记,则算法终止;标记,则算法终止;step 3否则,选取一个从该结点到根路径中没有否则,选取一个从该结点到根路径中没有出现过的属性为标记标识该结点,然后就这个属出现过的属性为标记标识该结点,然后就这个属性所有的取值继续创建树的分支;重复算法步骤性所有的取值继续创建树的分支;
展开阅读全文