51判别分析的概念52距离判别法53费歇尔判别法54贝叶课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《51判别分析的概念52距离判别法53费歇尔判别法54贝叶课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 51 判别分析 概念 52 距离 判别 53 费歇尔 54 课件
- 资源描述:
-
1、51 判别分析的概念 52 距离判别法 53 费歇尔判别法54 贝叶斯判别法55 逐步判别法 56 实例分析 判别分析51 判别分析的概念判别分析的概念 在生产、科研和日常生活中,我们经常需要根据观测到的数据资料,对所研究的对象进行判别分类,即是根据历史上划分类别的有关资料和某种最优准则,确定一种判别方法,判定一个新的样品归属于哪一类。例如某医院有部分患有肺炎、肝炎、冠心病、高血压、糖尿病等病人的资料,记录了每个患者若干症状的指标数据,现在想利用现有的这些资料数据找出一种方法,使对于一个新的病人,当测得这些症状指标数据时,能够判断其患有哪一种疾病。在经济学中,根据人均国民收入、人均工农业总产值
2、、人均消费水平等多项指标来判断一个国家所处的经济发展阶段。在气象预报中,根据已有的气象资料(气温、气压、湿度等)来判断明天、后天是阴天还是晴天,是有雨还是无雨。在地质学中根据以往对矿物勘探资料(矿石的化学和物理性质和所含化学成分)的分析,判断某一矿石把他应归于哪一类矿石。总之,在实际问题中需要判别的问题几乎无处不在。判别分析与聚类分析不同。判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行分类。例如,我们有了患胃炎的病人和健康人的一些化验指标,就可以从这些化验指标发现两类人的区别。把这种区别表示为一
3、个判别公式,然后对怀疑患胃炎的人就可以根据其化验指标用判别公式诊断。对于聚类分析来说,一批给定样品要划分的类型事先并不知道,正需要通过聚类分析来给以确定类型。正因为如此,判别分析与聚类分析往往要结合起来使用。用数学的语言来说,判别问题可以表述为:对于n个样品,每个样品有p个指标,已知每个样品属于某一k类别(总体)G1,G2,Gk,对于每类别其分布函数分别为f1(y),f2(y),fk(y),对于一个给定样品y,我们要判断出这个样本来自哪个总体。判别分析的主要问题就是如何寻找最佳的判别函数和建立判别规则。研究判别分析的方法很多,根据不同的研究对象,判别分析方法有不同的分类:1)按判别的组数来分,
4、有两组判别分析和多组判别分析2)按区分不同总体所用的数学模型来分,有线性判别分析和非线性判别分析3)按判别对所处理的变量方法不同有逐步判别分析、序贯判别分析。4)按判别准则来分,有马氏距离最小准则、费歇尔判别准则、贝叶斯判别准则、最小平方准则、最大似然准则等。k第二节 距离判别法 距离判别法就是根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i类的重心距离最近,就认为它来自第i类。距离判别法对各类(或总体)的分布,并无特别的要求。),(),(,),(),(,),(),(),(),(,),212122112121212121GXDGXDGXDGXDG
5、XGXDGXDGXGXDGXDGGXXxxxXpnnGGp当待判当当,归类,则可以写成:,按距离最近原则判别和总体的距离,分别记为、到首先计算应判归那一类?问(指标值为今取任一个样品,实测个指标。个样品,每个样品观测从第二个总体中抽取个样品,村第一个总体中抽取、设有两个总体1、两个总体的距离判别法2、多个总体的距离判别法x1x2 xp 均值)1(1X)1(2X)1(1nX)1(11x)1(12x)1(1px)1(21x)1(11nx)1(22x)1(2px)1(21nx)1(1pnx)1(1x)1(2x)1(pxx1x2 xp 均值)2(1X)2(2X)2(2nX)2(11x)2(12x)2(
6、1px)2(21x)2(12nx)2(22x)2(2px)2(22nx)2(2pnx)2(1x)2(2x)2(px总体 的观测数据 21GG、)(21)()(,(,()(,(,(12,1 )(),(),(),(),(),()2()1()2()1(11222122221)(1)(22121212121)2()1()2()2(2)1()1(1其中:)的差有)与考察时)当(下两种情况:这时判别准则可分为以()(利用马氏距离即是的均值向量与协方差。、分别为、,、设分析。用马氏距离做上述判别在多元统计分析中经常别归类。的大小,按最近准则判,然后比较的均值向量。、分别为,(如果采用欧氏距离,则)()()(
7、)()()()(XGXDGXDXWGXDGXDiXXGXDGGGXDGXDGGXXXXXXGXDXXXXGXDiiii称为判别系数。为线性判别函数。称的线性函数。,是显然,)(则已知时,令、当即当待判即当即当,则判别准则可以写成:)()(aXWxxxXWxaaxaaXXWaaaaGXDGXDXWGXDGXDXWGXGXDGXDXWGXppppp)()()()()()(),()(),(),(,0)(,),(),(,0)(,),(),(,0)(2122111212)1(12)1(22122212222121)()()()(21,)()(211,121,)2()1(1)2()1(1)()()()(2
8、1212121211)2()2(221)1()1(11i)()(2)(12)1(21XXXXXWXXXXXXXSGGssnnGGXXnXXniGXXXiintiitiitiniiniiinii线性判别函数为:其中:的无偏估计量。协差阵、是总体的无偏估计量。,期望、是总体。,的样本,来自设来估计。未知时,可以通过样本、即当的,值和协差阵一般是未知在实际应用中,总体均)(。时,时,当。或的符号取决于,这时不妨设,判别函数和分布分别为时,若两个正态总体的当我们注意到:2121212212221,)(),(1)2()(),(),(1GXXGXXXXXWXXWNNp 我们看到用距离判别所得到的准则是比较
9、合理的。但从下图又可以看出,用这个方法也会错判。如X来自G1,但却落入D2,被判为属于G2,错判的概率为图中阴影的面积,记为P(2/1),类似有P(1/2),显然12)(1)2/1()1/2(221 PP才有意义。性差异时,作判别分析两个总体的均值有显著,因此只有当判别分析是没有意义的的概率都很大,这时作错判,则无论用何种办法,即当两总体靠的很近时()21时)当()()(211的二次函数。作为判别函数,它是仍然用当待判当当,类,类似的也有:按距离最近原则判别归XXXXXGXDGXDXWGXDGXDGXDGXDGXGXDGXDGX)()()()()()(),(),()(),(),(,),(),(
10、,),(),()1(1)1()1()2(1)2()2(122221212211例5.1 某地区经勘探证明,A盆地是一个钾盐矿区,B盆地是一个钠盐矿区(不含钾),其它盆地是否含钾盐有待作出判断。今从A和B两盆地各抽取5个盐泉样品;从其它盆地抽取8个盐泉样品,化验其4个指标,具体数据见表5.3,试对其它盆地抽取的8个待判盐泉样品进行判别是否为含钾性矿泉。)(1X)(2X)(3X)(4X盐泉类别序号X1X2X3X4类别号含钾盐泉(A盆地)113.852.797.8049.60A222.314.6712.3147.80A328.824.6316.1862.15A415.293.547.5043.20A
11、528.794.9016.1258.10A含钠盐泉(B盆地)62.181.061.2220.60B73.850.804.0647.10B811.400.103.502.10B93.662.402.1415.10B1012.100.015.681.80B待判盐泉18.853.385.1726.10228.602.401.20127.00320.706.707.6030.2047.902.404.3033.2053.193.201.439.90612.405.104.4324.60716.803.402.3131.30815.002.705.0264.00解:把A盆地和B盆地可作两个不同的总体,并
12、假设两个总体协方差阵相等。两类总体中各有5个样品,另有8个待判样品。首先进行假设检验。检验假设H0:521 nn21由第3章假设检验可知,F统计量为,其中:)1,()2(1)2(2122121pnnpFTpnnpnnF)()()2(12YXnSYXmnmnmnTT利用SPSS软件进行计算。由样本值得F统计量为14.4644,对于给定的显著水平=0.01,查表得临界值 =11.4,由于 ,则拒绝H0,这说明A盆地和B盆地的盐泉特征有显著性的差异,因此进行判别分析是有意义的。下面进行判别分析。计算A盆地和B盆地的盐泉特征的均值为 =(21.812,4.106,11.982,52.17)T =(6.
13、638,0.874,3.32,17.34)T;两组间平方距离(即马氏距离)为37.029得线性判别函数 对已知类别的样品进行回判,回判结果见表5.4)5,4(01.0FFF 12)(21()()()2()1(XXXaXXaXWTT43217255.05893.81918.37430.40846.37xxxx样品序号W(X)原类号回判组别16.499332AA212.58205AA320.50165AA413.65669AA518.79822AA6-18.8952BB7-16.9721BB8-11.2342BB9-19.491BB10-27.1437BB表5.4 已知类别的样品回判结果回判结果给
14、出对来自于A盆地和B盆地的10个样品都判对了。样品序号W(X)判别类别1-9.7919B2188.0569A339.11198A4-4.80197B5-16.8409B617.80348A756.31679A845.99197A下面对8个待判样品进行判别分类,分类结果见下表 待判样品判别分类结果 即第2、3、6、7、8五个盐泉为含钾盐泉,其余三个为不含钾盐泉,即含钠盐泉。应判归那一类?问(品,实测指标值为个指标。今取任一个样,每个样品观测(个样品从每个总体中抽取,、个总体设有XxxxXpkinGGGkpik,),),2,1,21212、多个总体的距离判别法x1x2 xp 均值)1(1X)1(2
15、X)1(1nX)1(11x)1(12x)1(1px)1(21x)1(11nx)1(22x)1(2px)1(21nx)1(1pnx)1(1x)1(2x)1(pxx1x2 xp 均值)(1kX)(2kX)(knkX)(11kx)(12kx)(1kpx)(21kx)(1knkx)(22kx)(2kpx)(2knkx)(kpnkx)(1kx)(2kx)(kpxG1总体Gk总体)(max)(,2,1,)(2/,2,1),(2 2 )()(,(),()1()()(1)()()(1)()()(1)()()(1)(1)(1)(1)(1)(22k21)()1(iikiiiiiiiiiiiiiiiiiiiikCX
16、IXWGXkiCXIXWCIkiCXIXXXXXXXGXDGXDGGGX,如果判别规则:别函数为:取它的线性函数作为判,其中:),总体的距离,分别记为、到首先计算时当kntiitiitiknjiijiiiniiiknnnnXXXXSsssknkiXXnkiGXXXiii211)()()()(211)()()(i)()(2)(1)(2)1(,)()(1,21 1,21,其中:,。,的样本,来自设。与代替的估计量来未知时,可以通过样本、当)()()(,21 11;1,21,(min,(,2,1);()(,()2(1)()()()()(1)()()(i)()(2)(1)(2)1(2)1(212)(1
17、)(2)()1(iiintiitiitiiiinjiijiiiniiiikkikiiiiiiikXXXXSkisnXXnkiGXXXGXDGXDGXkiXXGXDX其中:,。,的样本,来自设。与通过样本来估计均未知时,可以、与、当),如果此时判别规则为:)到各总体的距离为计算不相等时、当)()()()()()(第三节第三节 费歇尔判别法费歇尔判别法 1、费歇尔判别原理、费歇尔判别原理 费歇尔(Fisher)判别方法是(1936)历史上最早提出的判别方法之一,也叫线性判别法。它的基本思想是通过将多维数据投影到某一方向上,使得投影后类与类之间尽可能的分开,然后再选择合适的判别准则,将待判的样本进行
18、分类判别。而衡量类与类之间是否分开的方法是借助于一元方差分析的思想,利用方差分析的思想来导出判别函数。费歇尔判别方法就是将各组样本均值投影到某条直线上,得到各组样本均值在该直线的投影坐标,投影坐标值距离越远越容易判断待判样本属于哪个组。因此,费歇尔判别方法就是要找一个由p个变量组成的线性函数,使得各类内点的函数值尽可能接近,而不同类间的函数值尽可能的远离。图5.2表示的是2维空间中的点投影到某个一维空间,即一条直线上,然后再对其进行判别,投影到不同的直线上,判别效果一般是不同的。投影坐标值距离越远越容易判断待判样本属于哪个组。ab图5.2 坐标投影 2、费歇尔判别方法判别方法 设有k个总体G1
19、,G2,Gk,每个总体中含有ni个样品,每个样品观测p个指标,假定所建立的判别函数为.其中 c表示p维空间的一个方向,如果按这个方向做一条直线,表示向量x在这条直线上投影坐标xcxcxcxcxyTpp2211)(TpTpTxxxxcccc),(),(21,21xcT 将属于不同总体的样品观测值代入判别函数式,则得:)()(22)(11)(jippjijijixcxcxcy 每个总体投影后的数据均为一元数据,对这k组数据进行一元方差分析,其组间平方和为其中:和 分别为总体Gi的样本均值和总样本均值,并记AcccxxxxncxcxcxcxcnATkiTiiiTkiTTiTTiTi1)()(1)()
20、(0)()()(ixx kinjijixnx11)(1A为组间离差阵:kiTiiixxxxnA1)()()(合并的组内平方和为EcccxxxxcxcxcETkinjTiijiijTkinjiTijTii11)()()()(112)()(0)()(其中合并的组内离差阵为kinjTiijiijixxxxE11)()()()()(因此,若k个总体的均值有显著性差异,则比值 EccAccTT应充分大。mlpcmlxcxympkmAEAccAcEEcAcEccEcEccAcEccAccEccEcEccAcAccEccEcEccEccAccmiillllTllmTTTTTTTTTT,2,1 ,.,2,1
21、,)(),1min(,0 ,022022)(2)(21)()()(21122能力的指标给出一个用以衡量判别对于每个判别函数必须对应的特征向量。为特征根个判别函数:于是可以构造其中非零特征根个数为特征根必为正根,记为是非负定的,所以非零因为对应的特征向量。矩阵的广义特征根及其、恰好是及说明ijkjimimiimiilmmGxyxyyxyammmpspyyym则判若)不加权法(用的方法时,此时有两种可供选)当(下列方法进行分类。在实际工作中通常选用类呢?何对待判的样品进行分有了判别函数之后,如个判别函数就够了。则认为),达到所要求的值(如个判别函数的判别能力如果的判别能力定义为:个判别函数)(1)
22、(00011100210)(min)(1185 ,00.,)(1,2,1 ,)(1,11,)()1()()1(1,)()2()1(1)1()()()2()1(iiiiikjiiiijjiiiiiiiikGxdxydxGGdkiyydyyyyyyb则判使得如果之间的分界点。与可以做为则令记按大小次序排列,将加权法.,min)()(,),(,2,1;,2,1 ,)1221221)(2210)()()(00)(GxDDyxyDxcxyxxxxkimlxcyamikimlillilTpiTlilTl则判若计算对待判样品记不加权法(时,也有两种方法。)当(判别能力不同,记考虑到每个判别函数的加权法)(b
23、012)(2)(mllilliyxyD求出的特征根。是由其中EcAcl.,min212GxDDiki则判若 三、判别的步骤 1、由各组样本资料,计算各组样本均值 2、计算离差矩阵A 3、计算各组样本离差平方和E 4、计算矩阵E-1 A的前m个特征向量 5、构造判别函数Yl(x)。6、判断)(kx)()()(xkxxkxnAk)()()()(kXkXkXkXE 值得注意的是:参与构造判别式的样品个数不宜太少,否则会影响判别式的优良性;其次判别式选用的指标不宜过多,指标过多不仅使用不方便,而且影响预报的稳定性。所以建立判别式之前应仔细挑选出几个对分类特别有关系的指标,要使两类平均值之间的差异尽量大
24、一些。例例5.2 费歇尔于1936年发表的鸢尾花数据被广泛地作为判别分析的例子。数据是对3种鸢尾花:刚毛鸢尾花(第一组)、变色鸢尾花(第二组)和弗吉尼亚鸢尾花(第三组)各抽取50个样本,测量其花萼长(x1)、花萼宽(x2)、花瓣长(x3)、花瓣宽(x4),单位为mm,数据从略。解:由于 150,50321321nnnnnnn计算)46.2,62.14,28.34,06.50(1x)26.13,60.42,70.27,36.59(2x)26.20,52.55,74.29,88.65(3x)99.11,58.37,57.30,43.58(4x333.8041400.18677267.2293933
25、.7127400.18677280.43710960.5723840.16524267.2293960.5723493.1134267.1995933.7127840.16524267.1995213.6321)(31iiiixxxxnA66.61518.62784.48050.56418.62726.272208.81246.246284.48008.81220.169600.136350.56446.246200.136362.3895)(311injiijiijixxxxE846.11549.27420.3497.10142.9512.21943.2077.8308.6965.14178
展开阅读全文