SAS软件应用之判别分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《SAS软件应用之判别分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 软件 应用 判别分析 课件
- 资源描述:
-
1、第第19章章 判别分析判别分析学习目标学习目标 了解判别分析的基本思想; 熟悉Bayes判别分析法和Fisher判别分析法; 掌握BAYES参数分析法的判别准则效能的评估; 掌握判别分析的SAS过程步:DISCRIM、CANDISC和STEPDISC过程步。概述概述 在医学研究和疾病防治工作中,经常会遇到需要根据观测到的资料对所研究的对象进行分类的问题。例如,需要根据就诊者的各项症状、体征及化验指标,作出就诊者是否患有某种疾病或某种疾病的哪一类型的诊断;又如,在环境监测中,根据对某地区的环境污染的综合测定结果判断该地区属于哪一种污染类型等。概述概述 判别分析的任务是根据已掌握的一批分类明确的样
2、品建立判别函数,使产生错判的事例最少,进而对给定的一个新样品,判断它来自哪个总体。判别分析是对样本个体进行分类的另一种统计分析方法,它和聚类分析一样,都可以将样本个体按其具有的特性进行分类。 概述概述 聚类分析和判别分析有很大的区别,判别分析是根据一批分类明确的样本在若干指标上的观察值,建立一个判别函数和判别准则,然后以此准则对新的样本进行分类。由此可知,这两种分类方法有着本质的不同:聚类分析可以对样本进行分类,也可以对指标进行分类;而判别分析只能对样本进行分类;聚类分析事先不知道事物的类别,也不知道分几类;而判别分析必须事先知道事物的类别,也知道分几类;聚类分析不需要分类的历史资料,而直接对
3、样本进行分类;而判别分析需要分类历史资料去建立判别函数,然后才能对样本进行分类。判别分析判别分析 判别分析是一种根据观测变量判断研究样本如何分类的多变量统计方法,它对于需要根据对样本中每个个案的观测来建立一个分组预测模式的情况是非常适用的。分析过程基于对预测变量的线性组合产生一系列判别函数,但是这些预测变量应该能够充分地体现各个类别之间的差异。判别函数是从一个每个个案所属的类别已经确定的样本中拟合出来的,并且生成的函数能够运用于同样进行了预测变量观测的新的样本点,以判断其类别归属。 判别分析判别分析 判别分析的基本原理可以表述为:在一个P维空间R中,有K个已知的总体G1,G2,G3,GK,同时
4、有样本点X(X1,X2,X3,XP),它属于且仅属于这K个总体中的一个,判别分析所要解决的问题是确定这个样本点X具体应该属于那一个G总体。实际上判别分析的过程分为两个部分,首先是依据已知样本及其预测变量建立起一系列分类规则或判别规则,其次是运用这一规则对样本的原有分类进行检验以确定原有分类错判率。同时如果原有分类具有较低的错判率,则建立起来的分类规则可以应用于实际工作中。 判别分析判别分析 判别分析的基本思想是根据一批分类明确的样本在若干指标上的观察值,建立一个关于指标的判别函数和判别准则,然后根据这个判别函数和判别准则对新的样本进行分类,并且根据回代判别的准确率评估它的实用性。例如,以一批正
5、常和一批已确诊的病人为样本,收集他们的各项指标,如化验指标、X线、心脑电图、超声波等诊断指标,然后利用这批分类明确的样本在这些指标上的观察值,建立一个关于指标的判别函数和判别准则(区分正常人和病人的方法),使得按此准则来判断这批样本归属的正确率达到最高。它有着广泛的应用价值,尤其在计算机疾病辅助诊断等医学科学研究中起了重要作用。判别分析判别分析 判别函数是一个关于指标变量的函数。每一个样本在指标变量上的观察值代入判别函数后可以得到一确定的函数值,将所有样本按其函数值的大小和事先规定的判别原则分到不同的组里,并使得分组结果与原样本归属最吻合。这就是判别分析方法的基本过程。进行判别分析的目的是根据
6、样本建立判别函数和判别准则,用以对新的样本进行归类。不同判别分析方法的区别在于其建立判别函数的方法和判别准则的规定是不同的。判别分析判别分析 判别分析的方法中较常使用的有Bayes判别分析法和Fisher判别分析法。Fisher判别分析法是以距离为判别准则来分类,即样本与哪个类的距离最短就分到哪一类;而Bayes判别分析法是以概率为判别准则来分类,即样本属于哪一类的概率最大就分到哪一类。前者仅适用于两类判别,后者适用于多类判别。 对判别分析结果的优劣评价明确尚无系统的检验理论,只能通过错判率和事后概率错误率的估计来评估判别分类的有效性。FISHER判别分析法判别分析法 假设A和B为分类明确的两
7、类症状。在总体A中观察了p例,在总体B中观察了q例,每一例记录了k个指标,它们是 。令y是这k个指标的一个线性函数,即: 其中, 是待估计的未知系数。称上述线性函数是FISHER判别分析法的判别函数。如果a是总体A中的一个样本,b是总体B中的一个样本,这y (a)和y (b)分别是这两个样本的判别函数值。 FISHER判别分析法的基本原理是选择一组适当的系数,使得类间差异最大且类内差异最小。kxxx,21kkxcxcxcy2211kccc,21FISHER判别分析法判别分析法 根据FISHER判别分析法的基本原理,就是要选择一组适当的系数,使得类间差异最大且类内差异最小,即使得下式的Q值达到最
8、大。 使得Q值达到最大就是Q的一阶偏导函数等于0的方程组的解,由)()()()(),(21babyaycccQQk0,0,021kcQcQcQFISHER判别分析法判别分析法 可以得到: 其中, kkkktktksksktstskkttdcfcfcfdcfcfcfdcfcfcf1111111111ksbadsss, 2 , 1,ktsbbbbaaaaftitqisistitpisisst, 2 , 1,),( )()( )(11FISHER判别分析法判别分析法 令上述方程的解是 ,那么FISHER判别函数估计式是: 因此,对于任意一个样本在k个指标上的观察值,都可以计算出对应的判别函数值,令判
9、别临界点是:kccc,21kkxcxcxcy2211)( )( ( ,)( )( 0110ayybyqpbcqacpqpbyqaypykjkjjjjjFISHER判别分析法判别分析法 那么,FISHER判别准则是: 时,该样本属于B类; 时,该样本属于A类; 各项指标在判别分析中所起的作用是不同的。贡献率的大小由下式决定:0*yy 0*yykjdcdcxkjjjjjj,2, 1,1的贡献率BAYES判别分析法判别分析法 BAYES判别分析法是以概率为判别准则使得每一类中的每一个样本都以最大概率进入该类。BAYES判别是一种概率型的判别分析,在分析过程开始时需要获得各个类别的分布密度函数,同时也
10、需要知道样本点属于各个类别的先验概率,以建立一个合适的判别规则;而分析过程结束时则计算每个样本点归属于某个类别的最大概率或最小错判损失,以确定各个样本点的预测类别归属。BAYES判别分析法判别分析法 BAYES判别分析法在理论和处理方法上都比FISHER判别分析法更加完善和先进,它不仅能解决多类判别分析,而且分析时考虑了数据的分布状态,使得判别分析的效能得到较大的提高。SAS软件的判别分析过程是以BAYES判别分析法为理论基础的。BAYES判别分析法判别分析法 BAYES判别法的判别准则是,将每一个点x判别到事后概率最大的类中。利用已知的数据以及求极小值的方法,可以估计出的系数,从而可以得到判
11、别函数的系数估计值,这些估计出的系数使得每一个样本x属于某个类的事后概率达到最大。判别分析判别分析 判别分析的结果对应着分析的不同步骤过程,也就包括了分类规则和分类结果两个部分。在分类规则中应该包括典型判别函数、衡量预测变量与判别函数之间关系的结构矩阵以及Fisher线性分类函数。典型判别函数是基于BAYES判别思想建立起来的,主要用途在于对参与分析的各个类别、各个预测变量、各个类别中的各个样本点及其相互关系进行考察。判别分析判别分析 要将典型判别函数应用于大量的实践操作中是不现实的,因为这涉及到对被分类的样本计算各种概率,十分繁琐不利用操作。而FISHER线性分类函数则是针对每个类别分别建立
12、起来的,可以直接应用实践操作中对新的样本进行分类。在分类结果部分则依据已经建立起来的分类规则对参与分析的各个样本点重新进行分类,并通过与原有分类进行比较来确定原有分类的判对率。判别函数中判别能力检验判别函数中判别能力检验 一个判别函数判别样本归类的功能强弱很大程度上取决与指标的选取。如果判别函数中特异性强的指标越多,则判别函数的判别功能也就越强。相反,不重要的指标越多,判别函数就越不稳定,其判别效果非但得不到改善,甚至会适得其反。因此,要建立一个有效的判别函数,指标的选取很重要,过多过少都不一定合适。一方面要根据专业知识和经验来筛选指标,另一方面要借助统计分析方法检验指标的性能。判别函数中判别
13、能力检验判别函数中判别能力检验 在一个判别函数中,每一个指标变量对判别函数的判别能力都有所贡献。贡献的大小可以用一元方差分析和多元方差分析来检验。一元方差分析可以检验每一个指标是否对判别函数的判别能力有显著性意义,统计检验的无效假设是:单一指标对判别函数的作用不显著。多元方差分析可以检验所有指标是否联合对判别函数的判别能力有显著性意义,统计检验的无效假设是:所有指标对判别函数的联合作用不显著。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 对于BAYES参数分析法的判别准则效能的评估,常用的是两个错误率估计指标。一个为错判率估计,另一个为事后概率错误率估计。 错误率估计是从
14、回代过程得到的结果,类内错判率等于类内被错判的样本数所占的比例。例如,原数据中第一类有n1个样本,用判别函数判别后,有m1个被判到其它类中,那么第一类的错判率等于m1/ n1。总体错判率等于总体被错判的样本数所占的比例。例如,原数据有两类,第一类有n1个样本,第二类有n2个样本,用判别函数判别后,第一类有m1个被判到其它类中,第二类有m2个样本被判到其它类中,那么总体的错判率等于(m1m2)/(n1n2)。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 在回代过程和判别新的样本时,都可以估计事后概率错判率。令x属于类t的事前概率为pt,事后概率为,样本总数为n,类t的样本数
15、为nt,类t的事后概率错判率为Et,总体事后概率错判率为E,其估计公式是: ) )(11)()(tRittxipnpedunstratifiE) )(11)()(1iRjgiiittxjpnppstratifiedEgiiiEpE1BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 其中,第一个公式表示从所有类中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第二个公式表示从类i中被判别到类t的所有x的事后概率之和,称为无分层概率之和。第一个公式定义的错误率为无分层事后概率错误率,第二个公式定义的错误率为分层事后概率错误率。当事前概率和类内样本数成比例时,这两个错误率相
16、等。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 对于一个估计的BAYES判别准则,错判率和事后概率错误率越小,判别准则越准确可靠。当被判别的新样本与样本独立时,这两种错误率估计是非偏的。但是,当新样本数很小时,可能会产生很大的变异,这时,事后概率错误率估计值有时会小于0。因此,为了得到一个有效的错误率估计,被判别的数据中样本数不应当太小,且类内样本数比例应当接近类内事前概率。BAYES参数分析法的判别准则效能评估参数分析法的判别准则效能评估 总之,评估一个判别函数的判别效能,涉及到以下几方面: 原数据的分类要可靠准确; 指标变量对判别函数的作用要显著; 错判率和事后概率
展开阅读全文