多元统计分析学第八讲课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元统计分析学第八讲课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 第八 讲课
- 资源描述:
-
1、第七章判别分析 n判别分析原理及模型n逐步判别分析n判别分析应用及实例 判别分析原理及模型 n判别分析概述 n判别分析方法 判别分析概述 (一)什么是判别分析 判别分析是多元统计中用于判别样品所属类型的一种统计分析方法。是一种在一些已知研究对象用某种方法已经分成若干类的情况下,确定新的样品的观测数据属于那一类的统计分析方法。判别准则:用于衡量新样品与各已知组别接近程度的思路原则。常用的有,距离准则、Fisher准则、贝叶斯准则。判别函数:基于一定的判别准则计算出的用于衡量新样品与各已知组别接近程度的描述指标,即判别函数。(二)判别分析的种类 按照判别组数划分有两组判别分析和多组判别分析;按照区
2、分不同总体的所用数学模型来分有线性判别分析和非线性判别分析;按照处理变量的方法不同有逐步判别、序贯判别等;按照判别准则来分有费舍准则与贝叶斯判别准则。判别分析方法(一)距离判别法基本思想:首先根据已知分类的数据,分别计算各类的重心,即分组(类)均值,判别准则是对于任给一次观测值,若它与第i类的重心距离最近,就认为它来自第i类。因此,距离判别法又称为最邻近方法(nearest neighbor method)。距离判别法对各类总体的分布没有特定的要求,适用于任意分布的资料。3多组费舍判别分析(三)贝叶斯判别法(三)贝叶斯判别法 第二节 逐步判别分析 n一、逐步判别分析的基本概念及基本思想逐步判别
3、分析的基本概念及基本思想n二、逐步判别的理论基础逐步判别的理论基础n三、引入和剔除变量计算三、引入和剔除变量计算n四、建立判别式四、建立判别式,对样品判别分类对样品判别分类n五、具体计算步骤五、具体计算步骤 一、基本概念及基本思想基本概念及基本思想 在判别问题中,当判别变量个数较多时,如果不加选择地一概采用来建立判别函数,不仅计算量大,还由于变量之间的相关性,可能使求解逆矩阵的计算精度下降,建立的判别函数不稳定。因此适当地筛选变量的问题就成为一个 很重要的事情。凡具有筛选变量能力的判别分析方法就统称为逐步判别法。逐步判别法和通常的判别分析一样,也有许多不同的原则,从而产生各种方法。这里讨论的逐
4、步判别分析方法是在多组判别分析基础上发展起来的一种方法,判别准则为贝叶斯判别函数,其基本思路类似于逐步回归分析,采用“有进有出”的算法,即按照变量是否重要,从而逐步引入变量,每引入一个“最重要”的变量进入判别式,同时要考虑较早引入的变量是否由于其后的新变量的引入使之丧失了重要性变得不再显著了(例如其作用被后引入地某几个变量的组合所代替),应及时从判别式中把它剔除,直到判别式中没有不重要的变量需要剔除,剩下来的变量也没有重要的变量可引入判别式时,逐步筛选结束。也就是说每步引入或剔除变量,都作相应的统计检验,使最后的贝叶斯判别函数仅保留“重要”的变量。为协方差矩阵。组的数学期望向量,为个变量个样品
5、的第组第为其中,;,),(),(样,即:各组的协方差矩阵都一互独立的正态随机向量假定各组的样品都是相和多组判别分析一样,而),(),(),(个指标即为:每个样品有个样品、分别抽取个母体,从这个母体中设有)()()()()()()()()()()(jkxnkmNxxxxxxXniXniXniXpnnnmkjkpkkipiiimmiiim21212121212121221121二二、逐步判别分析的理论基础、逐步判别分析的理论基础)为总的离差矩阵()为组内离差矩阵;(则,)()(记个变量的总平均。第个变量的均值,组中第为记)()()()()()()()()()(ijijjlkjilkimlnkijl
6、jlkjlimlnklkiijjljmmlnklkjjnklkjlljtTWpjixxxxtxxxxjxjlxnnnnxnxxnxllll2111111121111 TWWilksmpmmHmHHmm)统计量:(检验,可采用维尔克斯)问题的变量。对于(个母体不带附加信息的对区分去掉一些同样的效果,也就是说标是否可以减少而达到个指择的这个母体的目的,原来选但为了达到区分这。的判别函数是有意义的个母体可以区分,建立说明这被否定时,效果不好。当假定基础上建立的判别函数此个总体是无意义的,在被接受时,说明区分这当)(:需要检验:个母体建立判别函数,为了对这)()()(1.71.700210111112
7、221112111112221112111112111ln121TWWilkspTTTTTWWWWWTWmppppmpxmpnpPPPP)统计量为个变量的维尔克斯(于是,对前分块:、矩阵能力是否有所增长。将个总体的鉴别这个变量后,对于区分、了第附加信息,即是说增加否提供个指标后对区分母体是加第个变量,我们要检验增已选中如果通过某种步骤个变量分解为两部分,将为进一步考虑这个问题)(样本的的极限分布是服从于大)(而当增加第p个变量后,p个变量的维尔克斯统计量加信息。是否对区分母体提供附相等,即个指标的条件均值是否第个指标的条件下,增加用它来检验给定前)(),(的极限分布是)()(统计量即所以有:为
8、:ppmpnmFmmpnFWWWWWWWWTTTTWWWWTTTTTTTTWWWWTTTTTWWWWWTTTTWWWWTWppppppppp1111111112111212212111212212111212211211121221211121221121112122121112122112111212211121112122112221121122211211三、引入和剔除变量计算 假定计算了l步,已入选了L个变量,不妨设为)(。和总离差阵分别记为个变量的组内离差阵和,则这组为一个变量个已入选的变量,第二组为前个变量分成两组,第一将的判别能力。步添加一个新变量息,即考查在第变量后能否提供附加
9、信个,现检验增加新选的第步引入一个新变量,设第、lrrLLLLrrrlWWTTTTTTTWWWWWWWTWLxLLxlLxlxxx1121122221112111211222211121112111111rrLLlrrlrrrrlrrlrrLlrrlrrLrrrrlrrlrrrrrrlrrVVtVttTWTWTTTTTTTTttTTWWWWWWWW11111111111111211121221111111121112122有:所以,令所以维尔克斯统计量其中,其中,)()()()()()()()()(n由附加信息准则,则得引入变量的检验统计量为:,都是进行如下的变换剔除变量步无论是引入或个变量,
10、则第步,引入了已进行了施行一次变换,设)从它们开始,每一步离差矩阵为(),初始总的内离差矩阵为(判别的一步,记初始组量称为逐步,每引入或剔除一个变将变量逐步引入或剔除变换法”上采用“求解求逆紧凑原则。逐步判别在计算于引进的量剔除,剔除的原则同不能提供附加信息的变及时把有没有较大的变化,应选入的变量中其重要性个变量中,要考虑较早。对已入选的入选的变量作为由此将的“判别能力”显著,附加信息,即提供了时,则认为变量,当,达到最小值的变量择使在未选入的变量中,选。它服从于分布)()()()()(rijijLrrrrrrlrrlrrlrrxlLltLxxxxmLnmFFxVmLnmF1)1(),1(1m
11、mLnt1mmLnVV1F0011rr1r)(,)(,:,都是进行如下的变换剔除变量)()()()()()()()()()()()()()()()()()()()(3.712.7111rjrittrjritrjrittttrjritttrjrirjrirjrirjrixlrrlirlrrlrrlrjlirlijlrrlijlijlrrlirlrrlrrlrjlirlijlrrlijlijrn如果除。,可把它从判别式中剔的“判别能力”不显著不能提供附加信息,则认为变量)(,(:具有最大值,并且满足个变量中的),使得已入选的(如果对某个变量)()(统计量为:相应的剔除变量的检验)有:)和(的判别能
12、力,由变换(步引入的判别能力等价于第步剔除变量),则第(步是剔除变量第)()()()()()()()()(rrrrrlrrlrrlrrrrrlrrlrrlrrlrrlrrlrrrrrrxxmLnmFFVLLrxmmLnttmmLnVVFtttVxlxlLrxl11111111113.72.71112211w逐步判别过程,就是不断的引入和剔除变量的过程,可以证明,前三步都只引入,而不必考虑剔除,在以后的各步中则首先考虑剔除,如果不能剔除则再考虑引入,当既不能剔除又不能引入时,逐步计算的过程即告终止,将已选中的变量建立判别函数。四、建立判别式四、建立判别式,对样品判别分类对样品判别分类n经过第二步
13、选出重要变量后,可用各种方法建立判别函数和判别准则,这里使用Bayes判别法建立判别式,假设l+1步,最终选出L个变量,设判别式为:合。大时,往往是最优的组不。但在基础上引入新的变量)都是在保留已引入变量合(因为每次引入个变量组合中最优的组一般不是所有个变量的中可知用逐步判别选出需要注意的是,由算法总体。属于第,则)(若个判别式中去。入个样品之一。)分别代也可以是原来可以是一个新样品,(),(将每一个样品,)()(LLLhxxgyxhymnxxxxmgxCCqlymgpiLigigggmax111011五、具体计算步骤则全部变量被引入。,等等。显然如果取,变量可取,等等。如果想多选入,几个变量
展开阅读全文