数据挖掘模型评价精选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘模型评价精选课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 模型 评价 精选 课件
- 资源描述:
-
1、Copyright 2019-12,SPSS Taiwan Corp.数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典 元昌安元昌安 主编主编 邓松李文敬刘海涛编著邓松李文敬刘海涛编著 电子工业出版社电子工业出版社 17.117.1基于损失函数的标准基于损失函数的标准17.1.117.1.1混淆矩阵混淆矩阵17.1.217.1.2准确率及误差的度量准确率及误差的度量17.1.317.1.3两个评价模型成本的可视化工具两个评价模型成本的可视化工具17.1.417.1.4评估分类器的准确率评估分类器的准确率17.217.2基于统计检验的准则基于统计检验的准则17.2.11
2、7.2.1统计模型之间的距离统计模型之间的距离17.2.217.2.2统计模型的离差统计模型的离差17.317.3基于记分函数的标准基于记分函数的标准17.417.4贝叶斯标准贝叶斯标准17.517.5计算标准计算标准17.5.117.5.1交叉验证标准交叉验证标准17.5.217.5.2自展标准自展标准17.5.317.5.3遗传算法遗传算法17.617.6小结小结Copyright 2019-12,SPSS Taiwan Corp.17.1基于损失函数的标准基于损失函数的标准17.1.1混淆矩阵混淆矩阵混淆矩阵(confusion matrix)用来作为分类规则特征的表示,它包括了每一类的
3、样本个数,包括正确的和错误的分类。主对角线给出了每一类正确分类的样本的个数,非对角线上的元素则表示未被正确分类的样本个数。Copyright 2019-12,SPSS Taiwan Corp.对于对于 m类的分类问题,误差可能有类的分类问题,误差可能有m2-m。如果。如果仅有仅有2类(正样本和负样本,用类(正样本和负样本,用T和和F或或1和和0来来象征性地代表),就只有两类误差。象征性地代表),就只有两类误差。期望为期望为T,但分类为,但分类为F:称为假负。:称为假负。期望为期望为F,但分类为,但分类为T:称为假正。:称为假正。此外此外期望为期望为T,但分类为,但分类为T:称为真正。:称为真正
4、。期望为期望为F,但分类为,但分类为F:称为真负。:称为真负。Copyright 2019-12,SPSS Taiwan Corp.我们可以把它们汇总在我们可以把它们汇总在表表17-1正、负样本的混正、负样本的混淆矩阵中。淆矩阵中。实际的类预测的类C1C2C1真正假负C2假正真负总计真正+假正假负+真负表表17-1 正、负样本的混淆矩阵正、负样本的混淆矩阵Copyright 2019-12,SPSS Taiwan Corp.当分类数m为3时,对角线给出正确的预测。如表如表17-23个个类的混淆矩阵所示。类的混淆矩阵所示。在本例中,总共是在本例中,总共是150个检验个检验样本。样本。有6类误差(
5、m2-m=32-3=6),在表中它们以在表中它们以粗体字表示。粗体字表示。可以看到,这个分类器对于可以看到,这个分类器对于属于属于B类的类的46中的中的38个样本个样本给出了正确的分类;给出了正确的分类;8个样本个样本给出了错误的分类,其中给出了错误的分类,其中2个个分到了分到了A类,类,6个分到了个分到了C类类。预测的类A类B类A类452 2B类101038C类4 46 6总计5946表表 17-2 3个类的混淆矩阵个类的混淆矩阵Copyright 2019-12,SPSS Taiwan Corp.17.1.2 准确率及误差的度量准确率及误差的度量 为了度量分类器的预测精度,如果明确或隐含地
6、假设为了度量分类器的预测精度,如果明确或隐含地假设每个被错分的数据会产生相同的成本,我们引入误差率和每个被错分的数据会产生相同的成本,我们引入误差率和准确率这两个参数作为它的一个性能度量来对其进行评估准确率这两个参数作为它的一个性能度量来对其进行评估。误差率误差率R是误差数目是误差数目E和检验集中的样本数和检验集中的样本数S的比值:的比值:(17-1)分类器的准确率分类器的准确率A是检验集中正确分类数和检验集中样本是检验集中正确分类数和检验集中样本数数S的比值,它的计算是:的比值,它的计算是:(17-2)SER/SESRA/)(1Copyright 2019-12,SPSS Taiwan Co
7、rp.到目前为止,我们所假设的是每个误差同等成本,如果对于不同的错误有不同的成本的话,即使一个模型有低的准确率,它也比一个有高准确率但是成本高的模型更好。例如,在表17-23个类的混淆矩阵中如果假定每一个正确分类的成本为1000元,关于A类分错的成本是500元,关于B类分错的成本是1000元,关于C类分错的成本是2000元,则通过矩阵计算模型成本为(1231000)(5500)(121000)(102000)=88500元。Copyright 2019-12,SPSS Taiwan Corp.因此当不同类型的误差对应不同的权值时,我们要将每个误差乘以对应的权值因子cij 如果混淆矩阵中的误差元
8、素为eij,那么总成本函数C(替代精度计算中的误差数)可以计算为:(17-3)mimjijijecC11Copyright 2019-12,SPSS Taiwan Corp.要描述模型的质量,必须有更加复杂和全局性的度量。为此我们引入5个参数:敏感性(sensitivity),特异性(specificity),精度(precision),错误正例(false positives),错误负例(false negatives)。敏感性(sensitivity)=(17-4)特异性(specificity)=(17-5)pospost _negnegt _Copyright 2019-12,SPSS
9、 Taiwan Corp.以上两个参数分别评估分类器识别正样本的情况和识别负样本的情况。精度(precision)=(17-6)错误正例(false positives)=1-(17-7)错误负例(false negatives)=1-(17-8)posfpostpost_negnegt _pospost _Copyright 2019-12,SPSS Taiwan Corp.其中,t_pos是真正的样本个数,pos是正样本数,t_neg是真负的样本个数,neg是负样本的个数,f_pos是假正的样本个数。最终准确率为:A=+(17-9)pospost _)(negposposnegnegt_)
10、(negposnegCopyright 2019-12,SPSS Taiwan Corp.例例17-1 基于表17-1 正、负样本的混淆矩阵。事件(Event)这个术语代表二值响应变量的值Y,Event(1)表示成功,Event(0)表示失败。可以把一个检验数据集中的样本数据分为可能的4类,如表17-3事件(Event)的混淆矩阵:预测值实际值Event(1)Event(1)Event(0)Event(0)总计总计Event(1)Event(1)a ab ba+ba+bEvent(0)Event(0)c cd dc+dc+d总计总计a+ca+cb+db+da+b+c+da+b+c+d表表 17
11、-3 事件(事件(Event)的混淆矩阵)的混淆矩阵Copyright 2019-12,SPSS Taiwan Corp.该模型的敏感性(sensitivity),特异性(specificity),精度(precision),错误正例(false positives),错误负例(false negatives)5个参数分别为:敏感性(sensitivity)=特异性(specificity)=精度(precision)=错误正例(false positives)=错误负例(false negatives)=)(baa)(dcd)(daa)(bcc)(babCopyright 2019-12,S
12、PSS Taiwan Corp.介绍介绍lift图和图和ROC曲线,这两个曲线,这两个图都可以用来评价模型成本。它们图都可以用来评价模型成本。它们都是关于二值响应变量的,而二值都是关于二值响应变量的,而二值响应变量是评价方法发展最快的领响应变量是评价方法发展最快的领域。域。17.1.3.1 lift图图lift图把验证数据集中的观测数据根据图把验证数据集中的观测数据根据它们的分数以升序或降序排列,分数它们的分数以升序或降序排列,分数是基于训练数据集估计的响应事件是基于训练数据集估计的响应事件(成成功功)的概率。把这些分数再细分成的概率。把这些分数再细分成10分分位点,然后对验证数据集中的每个位
13、点,然后对验证数据集中的每个10分位点计算和图示成功的预测概率。分位点计算和图示成功的预测概率。如果这些成功的预测概率与估计概率如果这些成功的预测概率与估计概率具有相同的顺序(升序或降序),那具有相同的顺序(升序或降序),那么模型就是有效的。么模型就是有效的。17.1.3 两个评价模型成本的可视化工具图图17-1lift图示例比较了两个分类模型的图示例比较了两个分类模型的lift图图 Copyright 2019-12,SPSS Taiwan Corp.图中可看出分数以降序排列,所以曲线减少越多表明模型越好。因此模型classification tree看起来比另一个更好,特别是在第3个10分
14、位点,它具有较好的成功率。用每个曲线的值除以基本线,可得到性能的相对指标,称为lift,它测量一个模型的价值。对于模型classification tree,在第3个10分位点的lift值为2.77(即2.27/1.0),这意味着使用模型classification tree的成功率是随机选择(基本线)的3倍。Copyright 2019-12,SPSS Taiwan Corp.17.1.3.2 ROC曲线曲线 ROC曲线显示了给定模型的真正率即敏感性与假正率(错误正例)之间的比较评定。也就是说,给定一个二类问题,我们可以对检验集的不同部分,显示模型可以正确识别正样本的比例与模型将负样本错误标
15、识为正样本的比例之间的比较评定。敏感性的增加以错误正例的增加为代价。Copyright 2019-12,SPSS Taiwan Corp.ROC曲线的画出以错误正例为水平抽,以敏感性为垂直轴,截止点是任意特定点。在模型比较方面,理想的曲线是和垂直轴一致的曲线。所以最佳曲线是最靠左边的曲线。图17-2 3个分类模型的ROC曲线给出了对3个分类模型的ROC曲线,它说明最佳模型是reg2。不过三个模型实际上是相似的。图图17-2:3个分类模型的个分类模型的ROC曲线曲线Copyright 2019-12,SPSS Taiwan Corp.通常把数据集分为训练集和检验集,在训练集上建立模型,然后在检验
16、集上评估其质量。怎样将可用样本分为训练样本和检验样本呢?这里我们将讨论将较小数据集划分为训练样本集和检验样本集的不同技术,这种技术通常叫做再取样方法。17.1.4.1 再替换方法再替换方法 所有可用的数据集都既用于训练集也用于检验集。所有可用的数据集都既用于训练集也用于检验集。换句话说,训练集和检验集是相同的换句话说,训练集和检验集是相同的 17.1.4 评估分类器的准确率评估分类器的准确率Copyright 2019-12,SPSS Taiwan Corp.17.1.4.2保持方法和随保持方法和随机子抽样机子抽样保持(holdout)方法是我们目前为止讨论准确率时默认的方法(见图17-3 用
17、保持方法估计准确率)。在这种方法中,给定数据随机地划分到两个独立的集合:训练集和检验集。通常,三分之二的数据分配到训练集,其余三分之一分配到检验集。使用训练集导出模型,其准确率用检验集估计。随机子抽样(random subsampling)是保持方法的一种变形,它随机地选择训练集和检验集,将保持方法重复k次。总准确率估计取每次迭代准确率的平均值。图图17-3:用保持方法估计用保持方法估计准确率图准确率图Copyright 2019-12,SPSS Taiwan Corp.17.1.4.3 交叉确认交叉确认在k折交叉确认(k-fold cross-validation)中,初始数据随机划分成k个
18、互不相交的子集或“折”D1,D2,Dk,每个折的大小大致相等。训练和检验进行k次。在第i次迭代,划分Di用作检验集,其余的划分一起用来训练模型。即在第一次迭代子集D2,Dk 一起作为训练集,得到第一个模型,并在D1上检验;如此下去。与上面的保持和随机子抽样方法不同,这里每个样本用于训练的次数相同,并且用于检验一次。对于分类,准确率估计是k次迭代正确分类的总数除以初始数据中的样本总数。留一(leave-one-out)是k折交叉确认的特殊情况,其中k设置为初始样本数。用k-1个样本作为训练集,每次只给检验集“留出”一个样本,由此设计一个模型。从k个样本中选k-1个样本有k中选择,所以可用不同的大
19、小为k-1训练样本重复进行k次。由于要设计k个不同的模型并对其进行比较,这种方法计算量很大。Copyright 2019-12,SPSS Taiwan Corp.17.1.4.4 自助法自助法 自助法(自助法(bootstrap method)从给定训练)从给定训练样本中有放回均匀抽样。即每当选中一个样本样本中有放回均匀抽样。即每当选中一个样本,它等可能地被再次选中并再次添加到训练集,它等可能地被再次选中并再次添加到训练集中。中。有多种自助法方法。常用的一种是.632自助法,其方法如下,设给定的数据集包含d个样本,该数据集有放回地抽样d次,产生d个样本的自助样本集或训练集。原数据样本中的某些样
展开阅读全文