五章判别分析.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《五章判别分析.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析
- 资源描述:
-
1、五章判别分析判别分析的目标v目标1(预测方面):分类(或分配)。在已知历史上用某些方法已把研究对象分成若干组(亦称类或总体)的情况下,来判定新的观测样品应归属的组别。v目标2(描述方面):分离。就是用图形(通常二维,有时三维或一维,一般通过降维实现)方法或代数方法描述来自各组的样品之间的差异性,最大限度地分离各组。5.1 引言v判别分类的例子:1.有偿付力与无偿付力的财产责任保险公司。测量变量:总资产,股票与债券价值,股票与债券的市值,损失支出,盈余,签定的保费金额。2.非溃疡胃病组(胃功能紊乱者)与控制组(“正常”者)。测量变量:焦虑、依赖性、罪恶感、完美主义的量度3.两种野草。测量变量:萼
2、片与花瓣的长度,花瓣裂缝的深度,苞的长度,花粉直径。4.新产品的速购者与迟购者。测量变量:教育,收入,家庭大小,过去更换品牌的次数。5.良好信用与不良信用风险。测量变量:收入,年龄,信用卡数目,家庭规模。v每一组中所有样品的p维指标值 构成了该组的一个p元总体分布,我们试图主要从各组的总体分布或其分布特征出发来判断新样品x是来自哪一组的。12,px xxx5.2 距离判别v一、两组距离判别v二、多组距离判别一、两组距离判别v设组1和2的均值分别为1和2,协差阵分别为1和2(1,20),x是一个新样品(p维),现欲判断它来自哪一组。v1.1=2=时的判别v2.12时的判别1.1=2=时的判别v判
3、别规则:v 2211222212,ddddxxxxxx若若 22111211221111111112221112111221121121211212,=22=2=22222dd xxxxxxx xx x xx x x xxaa x 其中 。v令 ,则上述判别规则可简化为称W(x)为两组距离判别的(线性)判别函数,称a为判别系数向量。Wxax1121212a,12,0,0WWxxxx若若(5.2.3)误判概率v误判概率v设1Np(1,),2Np(2,),则其中 是两组之间的马氏距离。v可见,两个正态组越是分开(即越大),两个误判概率就越小,此时的判别效果也就越佳。当两个正态组很接近时,两个误判概
4、率都将很大,这时作判别分析就没有什么实际意义了。122|10|1|20|PP WPP Wxxxx2|11|22PP11212组之间是否已过于接近的界定v我们可对假设H0:1=2,H1:12进行检验,若检验接受原假设H0,则说明两组均值之间无显著差异,此时作判别分析一般会是徒劳的;若检验拒绝 H0,则两组均值之间虽然存在显著差异,但这种差异对进行有效的判别分析未必足够大(即此时作判别分析未必有实际意义),故此时还应看误判概率是否超过了一个合理的水平。v例5.2.1 设p=1,1和2的分布分别为N(1,2)和N(2,2),1,2,2均已知,12,则判别系数a=(12)/20,判别函数:判别规则:误
5、判概率:误判概率图示:W xa x12,xxxx若若122|11|222PP抽取样本估计有关未知参数v设 是来自组1的样本,是来自组2的样本,n1+n22p,则1和2的一个无偏估计分别为的一个联合无偏估计为其中111121,nxxx221222,nxxx121122111211nnjjjjnnxxxx和121212pnnSAA1,1,2iniijiijijiAxxxxv实际使用的判别函数为这里 。其判别规则为v若1和2都为正态组,则两个误判概率P(2|1)和P(1|2)可估计为其中。该误判概率的估计是有偏的,但大样本时偏差的影响是可以忽略的。Wxaxx112121,2pxxxaSxx 12,0
6、,0WWxxxx若若2|11|22PP11212pxxSxx(5.2.5)误判概率的非参数估计v若两组不能假定为正态组,则P(2|1)和 P(1|2)可以用样本中样品的误判比例来估计,通常有如下三种非参数估计方法:v(1)令n(2|1)为样本中来自1而误判为2的个数,n(1|2)为样本中来自2而误判为1的个数,则P(2|1)和P(1|2)可估计为该方法简单、直观,且易于计算。但遗憾的是,它给出的估计值通常偏低,除非n1和n2都非常大。122|11|22|1,1|2nnPPnn出现这种乐观估计的原因是,被用来构造判别函数的样本数据又被用于对这个函数进行评估,该判别函数自然对构造它的样本数据有更好
7、的适用性,以致出现偏低的误判率。v(2)将整个样本一分为二,一部分作为训练样本,用于构造判别函数,另一部分用作验证样本,用于对判别函数进行评估。误判概率用验证样本的被误判比例来估计,如此得到的估计是无偏的。该方法的两个主要缺陷:(i)需要用大样本;(ii)该方法构造的判别函数只用了部分样本数据,与使用全部样本数据构造的判别函数(这是作判别时实际使用的)相比,损失了过多有价值的信息,其效用自然不如后者,表现为前者的误判概率通常将高于后者的,而后者的误判概率才是我们真正感兴趣的。该缺陷随样本容量的增大而逐渐减弱,当样本容量相当大时此缺陷基本可忽略。v(3)称为交叉验证法或刀切法。从组1中取出x1j
8、,用该组的其余n11个观测值和组2的n2个观测值构造判别函数,然后对x1j进行判别,j=1,2,n1。同样,从组2中取出x2j,用这一组的其余n21个观测值和组1的n1个观测值构造判别函数,再对x2j作出判别,j=1,2,n2。令n*(2|1)为样本中来自1而误判为2的个数,n*(1|2)为样本中来自2而误判为1的个数,则两个误判概率P(2|1)和P(1|2)的估计量为它们都是接近无偏的估计量。*122|11|22|1,1|2nnPPnn2.12时的判别v判别规则v也可采用另一种形式:选择判别函数为 它是x的二次函数,相应的判别规则为 221211111222,Wddxxxxxxx 12,0,
9、0WWxxxx若若2211222212,ddddxxxxxx若若(5.2.10)v例5.2.2 在例5.2.1中,设1和2这两个组的方差不相同,分别为,这时当1x0),2(0),k(0),x到总体i的平方马氏距离为判别规则为v该判别规则不受变量单位的影响。v若1=2=k=,则上述判别规则可简化为:d2(x,i)=(xi)1(xi)=x1x2i1x+i1i =x1x2(Iix+ci)其中 ,判别规则简化为21,1,2,iiiidikxxx221,min,llii kdd xxx若111,1,2,2iiiiicik I 这里Iix+ci为线性判别函数。v当组数k=2时,可将上式写成此式等价于书中的
10、(5.2.3)式。v实践中1,2,k和1,2,k一般都是未知的,它们的值可由相应的样本估计值代替。设 是从组i中抽取的一个样本,则i可估计为(i=1,2,k)。1,maxllliii kcc xI xI x若1112221122,ccccxI xI xxI xI x若若12,iiiinxxx111iniijjnxx(5.2.13)(5.2.14)1=2=k=的情形v的联合无偏估计为其中n=n1+n2+nk,为第i组的样本协方差矩阵。v实际应用中使用的判别规则是其中 。111kpiiinnkSS11()()1iniijiijijinSxxxx1,maxllliii kcc xI xI x若111
11、,1,2,2ipiiipicik IS xx S x(5.2.15)1,2,k不全相等的情形vi可估计为Si(i=1,2,k)。v实际应用中使用的判别规则是其中221,min,llii kdd xxx若21,1,2,iiiidikxxxSxx(5.2.16)判别分类是否有效v除非各组均值向量之间有明显的差异,否则就不适合作判别分类。v在各组的数据均近似服从多元正态分布,且有共同的协方差矩阵的假定下,我们可先进行多元方差分析。如果检验没有发现均值间的显著差异,则此时再作判别分类将是白费精力;如果检验结果有显著差异,则可考虑再进行判别分类,但并不意味着所作的判别一定有效,最终还得看一下误判概率。1
12、,2,k是否假定为相等v在实际应用中,1,2,k不太会完全相等,我们需要关心的是,1,2,k之间是否存在着明显的差异。若没有明显的差异,则通常可以考虑假定1=2=k=,从而使用与此相应的判别规则。此时的判别函数为线性函数。v如果对是否应该假定1=2=k=拿不准,则可以同时采用相等和不相等两种情形下的相应判别规则分别进行判别,然后用交叉验证法来比较其误判概率的大小,以判断到底采用哪种规则更为合适。例5.2.3 v对破产的企业收集它们在破产前两年的年度财务数据,同时对财务良好的企业也收集同一时期的数据。数据涉及四个变量:x1=现金流量/总债务,x2=净收入/总资产,x3=流动资产/流动债务,以及x
13、4=流动资产/净销售额。数据列于表5.2.1,组为破产企业,组为非破产企业。编号组别x1x2x3x4编号组别x1x2x3x41-0.45-0.411.090.45240.380.113.270.352-0.56-0.311.510.16250.190.052.250.3330.060.021.010.4260.320.074.240.634-0.07-0.091.450.26270.310.054.450.695-0.1-0.091.560.67280.120.052.520.696-0.14-0.070.710.2829-0.020.022.050.3570.040.011.50.71300
14、.220.082.350.48-0.07-0.061.370.4310.170.071.80.5290.07-0.011.370.34320.150.052.170.5510-0.14-0.141.420.4333-0.1-0.012.50.5811-0.23-0.30.330.18340.14-0.030.460.26120.070.021.310.25350.140.072.610.52130.0102.150.7360.150.062.230.5614-0.28-0.231.190.66370.160.052.310.2150.150.051.880.27380.290.061.840.
15、38160.370.111.990.38390.540.112.330.4817-0.08-0.081.510.4240-0.33-0.093.010.47180.050.031.680.95410.480.091.240.18190.0101.260.6420.560.114.290.44200.120.111.140.17430.20.081.990.321-0.28-0.271.270.51440.470.142.920.45220.510.12.490.54450.170.042.450.14230.080.022.010.53460.580.045.060.13表5.2.1 破产状况
16、数据v使用书中判别规则(5.2.15)进行判别12120.06900.23520.08140.05561.36672.59360.43760.42680.88260.56950.68990.08290.56950.42010.52040.0688200.68990.52043.28610.65560.08290.06880.65560.8916124xxSS,.12920.20421.79830.16090.20420.05700.20600.00441.79830.206025.12260.78320.16090.00440.78320.6331的联合估计为1210.04570.01760.
17、05660.00180.01760.01080.01650.00171(20240.05660.01650.64570.0327440.00180.00170.03270.034767.9692106.23643.855612.2182106.2364262.20583.689921.51373.855ppSSSS)11112263.68991.90202.169312.218221.51372.169332.56324.0355.29518.38710.0201.6163.30612.1949.949ppIS xIS x,于是对某个未判企业x=(0.16,0.10,1.45,0.51),计算
18、得按判别规则(5.2.15),该企业被判为破产企业。11111222114.382,6.75422ppcc x S xx S x1112342212344.03518.3871.61612.1944.3825.29510.0203.3069.9496.754cxxxxcxxxx I xI x11225.373,3.268ccI xI x表5.2.3 判别情况判别为真实组183124v在表5.2.3中,估计的误判概率为v使用交叉验证法,判别情况列于表5.2.4。v在表5.2.4中,估计的误判概率为122|11|2312|10.143,1|20.042125nnPPnn表5.2.4 判别情况判别为
19、真实组183223322|10.143,1|20.082125PPv如果使用判别规则(5.2.16)进行判别,则由(5.2.7)式算出的误判率为v由交叉验证法估算出的误判概率为212|10.095,1|20.042125PP412|10.190,1|20.042125PP5.3 贝叶斯判别v一、最大后验概率法v二、最小期望误判代价法距离判别不合适的一个例子v1(校研究生组):N1=2000,1=5002(校本科生组):N2=8000,2=400研究生组中x500的有1000人,本科生组中 x500的有2000人。某学生的x=500,试判别该生归属哪一组。v该例如采用距离判别法则显然不妥,应考虑
20、利用如下的先验概率:12200080000.2,0.81000010000pp一、最大后验概率法v 设有k个组1,2,k,且组i的概率密度为fi(x),样品x来自组i的先验概率为pi,i=1,2,k,满足p1+p2+pk=1。则x属于i的后验概率为v最大后验概率法是采用如下的判别规则:1|,1,2,iiikjjjp fPikp fxxx1,|max|llii kPP xxx若(5.3.2)v例5.3.1 设有1,2和3三个组,欲判别某样品x0属于何组,已知p1=0.05,p2=0.65,p3=0.30,f1(x0)=0.10,f2(x0)=0.63,f3(x0)=2.4。现计算x0属于各组的后
21、验概率如下:所以应将x0判为组3。1 101030122020301330303010.05 0.10|0.05 0.100.65 0.630.30 2.40.0050.0041.13450.65 0.63|0.3611.13450.30 2.4|0.6351.1345iiiiiiiiip fPp fp fPp fp fPp fxxxxxxxxx皆为正态组的情形v设iNp(i,i),i0,i=1,2,k。这时,组i的概率密度为fi(x)=(2)p/2|i|1/2exp0.5d2(x,i)其中d2(x,i)=(xi)i 1(xi)是x到i的平方马氏距离。v以下各情形下后验概率的具体计算公式。当p
22、1=p2=pk=1/k,1=2=k=时,2211exp,2|1exp,2iikjjdPdxxx当p1=p2=pk=1/k,而1,2,k不全相等时,当1=2=k=,而p1,p2,pk不全相等时,当p1,p2,pk不全相等,1,2,k也不全相等时,2211exp,ln2|1exp,ln2iiikjjjdPdxxx2211exp,2ln2|1exp,2ln2iiikjjjdpPdpxxx2211exp,ln2ln2|1exp,ln2ln2iiiikjjjjdpPdpxxxv上述各情形的后验概率可统一表达为其中D2(x,i)=d2(x,i)+gi+hi2211exp,2|,1,2,1exp,2iikj
23、jDPikDxxx12121212ln,02ln,101,2,ikikikikgpp pphpppkik 若不全相等,若,若不全相等,若v称D2(x,i)为x到i的广义平方距离。在正态性假定下,上述判别规则也可等价地表达为v当1=2=k=时,上述后验概率公式可简化为其中Ii=1i,ci=0.5i1i,i=1,2,k。此时,判别规则等价于v如果我们对x来自哪一组的先验信息一无所知,则一般可取p1=p2=pk=1/k。这时,判别规则简化为(5.2.13)式。221,min,llii kDD xxx,若()()1expln|,1,2,explniiiikjjjjcpPikcp I xxI x1,ln
24、maxlnllliiii kcpcp xI xI x若v实际应用中,以上各式中的i和i(i=1,2,k)一般都是未知的,需用相应的样本估计值代替。v例5.3.2 在例5.2.3中,已知破产企业所占的比例约为10%,即可取p1=0.1,p2=0.9,假定两组均为正态,且1=2=,则未判企业x=(0.16,0.10,1.45,0.51)的后验概率为由于P(1|x)0,i=1,2。v当1=2=时,(5.3.13)式可具体写成其中a=1(12),。在p1=p2,c(1|2)=c(2|1)的条件下上式将退化为(5.2.3)式。2112211|2ln2|11|2ln2|1cpcpcpcpxaxxax,若,
25、若1212v重要结论:在两组皆为正态组且协差阵相等的情形下,距离判别(5.2.3)等价于不考虑先验概率和误判代价(相当于p1=p2,c(1|2)=c(2|1))时的贝叶斯判别,(作为(5.3.17)式的一个特例)此时它是最优的,即能使总的误判概率达到最小。v实践中,因未知参数需用样本值替代,故实际所使用的判别规则(5.2.5)只是渐近最优的。v当12时,(5.3.13)式可写为 其中d2(x,i)=(xi)i1(xi),i=1,2。1/212221121/2211/212222121/2212|1()2ln1|22|1()2ln1|2cpddcpcpddcpxxxxxx,若,),若,),v在p
展开阅读全文