数据挖掘分类(课堂PPT)课件(PPT 106页).pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘分类(课堂PPT)课件(PPT 106页).pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘分类课堂PPT课件PPT 106页 数据 挖掘 分类 课堂 PPT 课件 106
- 资源描述:
-
1、第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n实值预测 n与分类有关的问题 2022-7-311.第1页,共106页。分类的流程 n根据现有的知识,我们得到了一些关于爬行动物和鸟类的信息,我们能否对新发现的物种,比如动物A,动物B进行分类?2022-7-312.第2页,共106页。分类的流程 n步骤一:将样本转化为等维的数据特征(特征提取)。n所有样本必须具有相同数量的特征n兼顾特征的全面性和独立性2022-7-313.第3页,共106页。分类的流程 n步骤二:选择与类别相关的特征(特征选择)。n比如,绿色代表与
2、类别非常相关,黑色代表部分相关,灰色代表完全无关2022-7-314.第4页,共106页。分类的流程 n步骤三:建立分类模型或分类器(分类)。n分类器通常可以看作一个函数,它把特征映射到类的空间上iiniiiyxxxxf),.,(3212022-7-315.第5页,共106页。如何避免过度训练 n分类也称为有监督学习(supervised learning),与之相对于的是无监督学习(unsupervised learning),比如聚类。n分类与聚类的最大区别在于,分类数据中的一部分的类别是已知的,而聚类数据的类别未知。n建立分类模型需要学习一部分已知数据,如果训练时间过长,或者预测模型参数
3、太多而样本较少,将导致过度训练(overfitting)。2022-7-316.第6页,共106页。如何避免过度训练 n避免过度训练最重要一点是,模型的参数量应远小于样本的数量。n应建立训练集(training set)和测试集(test set)。n训练集应用于建立分类模型n测试集应用于评估分类模型nK折叠交叉验证(K-fold cross validation):将初始采样分割成K个子样本(S1,S2,.,Sk),取K-1个做训练集,另外一个做测试集。交叉验证重复K次,每个子样本都作为测试集一次,平均K次的结果,最终得到一个单一估测。2022-7-317.第7页,共106页。分类模型的评估
4、 n真阳性(T True P Positive):实际为阳性 预测为阳性n真阴性(T True NNegative):实际为阴性 预测为阴性n假阳性(F False P Positive):实际为阴性 预测为阳性n假阴性(F False NNegative):实际为阳性 预测为阴性n预测是否正确 预测结果n比如预测未知动物是鸟类还是爬行动物,阳性代表爬行动物,阴性代表非非爬行动物,请大家阐述 TP=10,TN=8,FN=3,FP=2是什么意义2022-7-318.第8页,共106页。分类模型的评估 n灵敏度(Sensitivity):TP/(TP+FN)n也称为查全率(Recall)n数据集共
5、有13只爬行动物,其中10只被正确预测为爬行动物,灵敏度为10/13n特异度(Specificity):TN/(TN+FP)n数据集有10只非爬行动物,其中8只被预测为非爬行动物,特异度为8/10n精度(Precision):TP/(TP+FP)n分类器预测了12只动物为爬行动物,其中10只确实是爬行动物,精度为10/12n准确率(Accuracy):(TP+TN)/(TP+TN+FN+FP)n数据集包含23只动物,其中18只预测为正确的分类,准确率为18/232022-7-319.第9页,共106页。分类模型的评估 n对于非平衡(unblanced)的数据集,以上指标并不能很好的评估预测结果
6、。n非平衡的数据集是指阳性数据在整个数据集中的比例很小。比如,数据集包含10只爬行动物,990只爬行动物,此时,是否预测正确爬行动物对准确率影响不大。n更平衡的评估标准包括马修斯相关性系数(Matthews correlation coefficient)和ROC曲线。n马修斯相关性系数定义为2022-7-3110.第10页,共106页。分类模型的评估 nROC曲线通过描述真阳性率(TPR)和假阳性率(FPR)来实现,其中TPR=TP/(TP+FN),FPR=FP/(FP+TN)。n大部分分类器都输出一个实数值(可以看作概率),通过变换阈值可以得到多组TPR与FPR的值。2022-7-3111
7、.第11页,共106页。第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决策树分类方法 n贝叶斯分类 n实值预测 n与分类有关的问题 2022-7-3112.第12页,共106页。基于距离的分类算法的思路n定义定义4-2 4-2 给定一个数据库给定一个数据库 D D=t t1 1,t t2 2,t tn n 和一和一组类组类C C=C C1 1,C Cmm。假定每个元组包括一些数。假定每个元组包括一些数值型的属性值:值型的属性值:t ti i=t ti1 i1,t ti2i2,t tik ik,每个类也包,每个类也包含数值性属性值:含数值性属性值
8、:C Cj j=C Cj1 j1,C Cj2j2,C Cjk jk,则分,则分类问题是要分配每个类问题是要分配每个t ti i到满足如下条件的类到满足如下条件的类C Cj j:simsim(t ti i,C Cj j)=)=simsim(t ti i,C Cl l),C Cl lC C,C Cl lC Cj j,其中其中simsim(t ti i,C Cj j)被称为相似性。被称为相似性。n在实际的计算中往往用在实际的计算中往往用距离距离来表征,距离越近,来表征,距离越近,相似性越大,距离越远,相似性越小。相似性越大,距离越远,相似性越小。n距离的计算方法有多种,最常用的是通过计算每距离的计算
9、方法有多种,最常用的是通过计算每个类的中心来完成。个类的中心来完成。2022-7-3113.第13页,共106页。基于距离的分类算法的一般性描述n算法 4-1通过对每个样本和各个类的中心来比较,从而可以找出他的最近的类中心,得到确定的类别标记。算法算法 4-1 基于距离的分类算法输入:每个类的中心C1,Cm;待分类的元组t。输出:输出类别c。(1)dist=;/距离初始化(2)FOR i:=1 to m DO(3)IF dis(ci,t)dist THEN BEGIN(4)c i;(5)distdist(ci,t);(6)END.2022-7-3114.第14页,共106页。基于距离的分类方法
10、的直观解释(a)类定义(b)待分类样例(c)分类结果2022-7-3115.第15页,共106页。距离分类例题 nC1=(3,3,4,2),C2=(8,5,-1,-7),C3=(-5,-7,6,10);请用基于距离的算法给以下样本分类:(5,5,0,0)(5,5,-5,-5)(-5,-5,5,5)2022-7-3116.第16页,共106页。K-近邻分类算法nK-近邻分类算法(K Nearest Neighbors,简称KNN)通过计算每个训练数据到待分类元组的距离,取和待分类元组距离最近的K个训练数据,K个数据中哪个类别的训练数据占多数,则待分类元组就属于哪个类别。算法算法 4-2 K-近邻
11、分类算法近邻分类算法输入:输入:训练数据训练数据T;近邻数目;近邻数目K;待分类的元组;待分类的元组t。输出:输出:输出类别输出类别c。(1)N=;(2)FOR each d T DO BEGIN(3)IF|N|K THEN(4)N=N d;(5)ELSE(6)IF u N such that sim(t,u)sim(t,d)THEN BEGIN(7)N=N-u;(8)N=N d;(9)END(10)END(11)c=class to which the most u N.2022-7-3117.第17页,共106页。KNN的例子姓名 性别 身高(米)类别Kristina女 1.6 矮Jim
12、男 2高Maggie 女 1.83高Martha 女 1.88高Stephanie女 1.7矮Bob 男 1.85中等Kathy 女 1.6矮Dave 男 1.7矮Worth 男 2.2高Steven 男 2.1 高Debbie 女 1.8高Todd 男 1.82中等Kim 女 1.7中等Amy 女 1.75中等Wynette 女 1.73中等n只使用身高做特征,K=3,对于样本应属于哪个类别?n仅使用同性别样本做训练,K=3,对于样本应属于哪个类别?2022-7-3118.第18页,共106页。第三章第三章 分类方法分类方法 内容提要内容提要n分类的基本概念与步骤 n基于距离的分类算法 n决
13、策树分类方法 n贝叶斯分类 n实值预测 n与分类有关的问题 2022-7-3119.第19页,共106页。决策树表示与例子年龄年龄?学生学生?是是信用信用?40否是良好一般是是否否是是否否2022-7-3120.第20页,共106页。决策树表示与例子n决策树(Decision Tree)的每个内部结点表示一个属性(特征),每个分枝代表一个特征的一个(类)取值;n每个树叶结点代表类或类分布。n决策树分类方法采用自顶向下的递归方式,在决策树的内部结点进行属性的比较,从而判断从该结点向下的分枝,在决策树的叶结点得到结论。n从决策树的根到叶结点的一条路径就对应着一条规则,整棵决策树就对应着一组规则。n
14、决策树分类模型的建立通常分为两个步骤:n决策树生成n决策树修剪2022-7-3121.第21页,共106页。决策树生成算法描述算法 4-3 Generate_decision_tree(samples,attribute_list)/*决策树生成算法*/输入:训练样本samples,由离散值属性表示;输出:一棵决策树。(1)创建结点N;(2)IFIF samples 都在同一个类C THENTHEN 返回N 作为叶结点,以类 C标记;(3)IFIF attribute_list为空 THENTHEN 返回N作为叶结点,标记为samples中最普通的类;/多数表决(4)选择attribute_l
15、ist中具有最高信息增益的属性test_attribute;(5)标记结点N为test_attribute;(6)FORFOR test_attribute的每个取值ai 由结点N长出一个条件为test_attribute=ai的分枝;(7)设si是samples 中test_attribute=ai的样本的集合;/一个划分(8)IFIF si 为空 THENTHEN 回退到test_attribute的其它取值;(9)ELSEELSE 加上一个由Generate_decision_tree(si,attribute_list-test_attribute)返回的结点;2022-7-3122.
16、第22页,共106页。决策树修剪算法n基本的决策树构造算法没有考虑噪声,因此生成的决策树完全与训练集拟合。在有噪声情况下,将导致过分拟合(Overfitting),即对训练数据的完全拟合反而使对现实数据的分类预测性能下降。n比如每个样本都是一个叶子节点。n现实世界的数据一般不可能是完美的,可能缺值(Missing Values);数据不完整;含有噪声甚至是错误的。n剪枝是一种克服噪声的基本技术,同时它也能使树得到简化而变得更容易理解。有两种基本的剪枝策略。2022-7-3123.第23页,共106页。决策树修剪算法n预先剪枝(Pre-Pruning):在生成树的同时决定是继续对不纯的训练子集进
17、行划分还是停机。n后剪枝(Post-Pruning):是一种拟合+化简(fitting-and-simplifying)的两阶段方法。首先生成与训练数据完全拟合的一棵决策树,然后从树的叶子开始剪枝,逐步向根的方向剪。剪枝时要用到一个测试数据集合(Tuning Set或Adjusting Set),如果存在某个叶子剪去后能使得在测试集上的准确度或其他测度不降低(不变得更坏),则剪去该叶子;否则停机。理论上讲,后剪枝好于预先剪枝,但计算复杂度大。2022-7-3124.第24页,共106页。决策树修剪算法n构造好的决策树的关键在于如何选择属性进行树的拓展。研究结果表明,一般情况下,树越小则树的预测
18、能力越强。由于构造最小的树是NP-难问题,因此只能采取用启发式策略来进行。n属性选择依赖于各种对例子子集的不纯度(Impurity)度量方法,包括信息增益(Informatin Gain)、信息增益比(Gain Ratio)、Gini-index、距离度量(Distance Measure)、J-measure等。2022-7-3125.第25页,共106页。ID3算法nID3是一个著名决策树生成方法:n决策树中每一个非叶结点对应着一个非类别属性(特征),树枝代表这个属性的值。一个叶结点代表从树根到叶结点之间的路径对应的记录所属的类别属性值。n每一个非叶结点都将与属性中具有最大信息量的非类别属
19、性相关联。n采用信息增益来选择能够最好地将样本分类的属性。n对ID3算法采用如下方式讲解:n给出信息增益对应的计算公式;n通过一个例子来说明它的主要过程。2022-7-3126.第26页,共106页。信息增益的计算n设S是s个数据样本的集合,定义m个不同类Ci(i=1,2,m),设si是Ci类中的样本的数量。对给定的样本S所期望的信息值由下式给出:其中pi是任意样本属于Ci的概率:si/s。例题:数据集有4个类,分别有8个,4个,2个,2个样本,求该数据集的信息值。问题:信息值的取值范围是什么?miiimppsssI1221)(log),.,(2022-7-3127.第27页,共106页。信息
20、增益的计算例题:数据集有2个类,求该数据集的信息值。2022-7-3128.第28页,共106页。信息增益的计算n设属性A具有个不同值a1,a2,av,可以用属性A将样本S划分为 S1,S2,Sv,设Sij 是Sj中Ci类的样本数,则由A划分成子集的熵由下式给出:n有A进行分枝将获得的信息增益可以由下面的公式得到:)s,.,s(Iss.sE(A)mjjvjmjj111E(A)s,.,s,I(sGain(A)m21使用属性后的信息值未使用属性的信息值2022-7-3129.第29页,共106页。信息增益的计算例题:数据集有2个类。使用是否学生作为属性,求该属性的信息增益。使用信用状况作为属性,求
21、该属性的信息增益。2022-7-3130.第30页,共106页。ID3算法的例子选择信息增益最大的属性特征作为根节点。Gain(年龄)=0.342 Gain(收入)=0Gain(是否学生)=0.333 Gain(信用状况)=0年龄年龄?是是402022-7-3131.第31页,共106页。ID3算法的例子对于=30的分支Gain(收入)=0.315 Gain(是否学生)=0.315 Gain(信用状况)=0.815对于30 40的分支Gain(收入)=1 Gain(是否学生)=0 Gain(信用状况)=1年龄?年龄?信用状况?信用状况?收入?收入?是是40否否是是是是否否良好一般高低2022-
22、7-3132.第32页,共106页。ID3算法的性能分析nID3算法的假设空间包含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间。nID3算法在搜索的每一步都使用当前的所有训练样例,大大降低了对个别训练样例错误的敏感性。因此,通过修改终止准则,可以容易地扩展到处理含有噪声的训练数据。2022-7-3133.第33页,共106页。ID3算法的性能分析nID3算法在搜索过程中不进行回溯。所以,它易受无回溯的爬山搜索中的常见风险影响:收敛到局部最优而不是全局最优。nID3算法只能处理离散值的属性。n信息增益度量存在一个内在偏置,它偏袒具有较多值的属性。例如,如果有一个属性为日期,那么将
23、有大量取值,这个属性可能会有非常高的信息增益。假如它被选作树的根结点的决策属性则可能形成一颗非常宽的树,这棵树可以理想地分类训练数据,但是对于测试数据的分类性能可能会相当差。nID3算法增长树的每一个分支的深度,直到属性的使用无法导致信息增益。当数据中有噪声或训练样例的数量太少时,产生的树会过渡拟合训练样例。n问题:ID3树可以导致过度拟合,那是否它一定能对训练集完全正确的分类呢?2022-7-3134.第34页,共106页。C4.5算法对ID3的主要改进nC4.5算法是从ID3算法演变而来,除了拥有ID3算法的功能外,C4.5算法引入了新的方法和增加了新的功能:n用信息增益比例的概念;n合并
24、具有连续属性的值;n可以处理具有缺少属性值的训练样本;n通过使用不同的修剪技术以避免树的过度拟合;nK交叉验证;n规则的产生方式等。2022-7-3135.第35页,共106页。信息增益比例的概念n信息增益比例是在信息增益概念基础上发展起来的,一个属性的信息增益比例用下面的公式给出:其中假如我们以属性A的值为基准对样本进行分割的化,Splitl(A)就是前面熵的概念。)()()(ASplitIAGainAGainRatio)(log)(12jvjjppASplitI2022-7-3136.第36页,共106页。信息增益比例的计算例题:数据集有2个类。使用是否学生作为属性,求该属性的信息增益比例
25、。使用年龄作为属性,求该属性的信息增益比例。讨论:信息增益和信息增益比例的差异在哪里?2022-7-3137.第37页,共106页。C4.5处理连续值的属性n对于连续属性值,C4.5其处理过程如下:n根据属性的值,对数据集排序;n用不同的阈值将数据集动态的进行划分;n取两个实际值中的中点作为一个阈值;n取两个划分,所有样本都在这两个划分中;n得到所有可能的阈值、增益及增益比;n在每一个属性会变为取两个取值,即小于阈值或大于等于阈值。n简单地说,针对属性有连续数值的情况,则在训练集中可以按升序方式排列。如果属性A共有n种取值,则对每个取值vj(j=1,2,n),将所有的记录进行划分:一部分小于v
展开阅读全文