1、 用于判别样本所属类型的统计分析方法用于判别样本所属类型的统计分析方法 基因识别:根据某一基因识别:根据某一DNA序列的核苷酸组分、信号特序列的核苷酸组分、信号特征等指标,判别是否编码蛋白序列?征等指标,判别是否编码蛋白序列?医学诊断:某一病人肺部存在阴影,判别医学诊断:某一病人肺部存在阴影,判别:肺结核?良性肿瘤?肺癌?肺结核?良性肿瘤?肺癌?人类考古学:根据头盖骨的特征,判别:民族、性别、人类考古学:根据头盖骨的特征,判别:民族、性别、生活年代?生活年代?股票分析预测:股票分析预测:气象分析预测:气象分析预测:自然灾害分析预测:自然灾害分析预测:设有设有k个个m维的总体维的总体G1,G2,
2、Gk,(1).它们的分布特征已知,可以表示为它们的分布特征已知,可以表示为F1(x),F2(x),Fk(x)(2).或者知道来自各个总体的样本(训练样本)。或者知道来自各个总体的样本(训练样本)。对于给定的一个未知样本对于给定的一个未知样本X(检测样本),判别(检测样本),判别X属于属于哪个总体。哪个总体。多元的、复杂的、高度综合的统计分析问题多元的、复杂的、高度综合的统计分析问题 Fisher判别法判别法 距离判别法距离判别法 Bayes判别法判别法 逐步判别法逐步判别法 训练样本训练样本训练集训练集检测样本检测样本检测集检测集学习学习检测检测评价评价样本与哪一类总体的距离最近,就判别它属于
3、哪一类总体。样本与哪一类总体的距离最近,就判别它属于哪一类总体。设总体设总体G为为n维变量,即含有维变量,即含有n个属性指标个属性指标(x1,x2,xn)。已知总体。已知总体G中中的的 t个样本个样本Xk(xk1,xk2,xkn),k=1,2,t。总体均值可用样本均值估。总体均值可用样本均值估计:计:)()(),(12XXSXXGXd则对于任一点则对于任一点X(x1,x2,xn),定义它与总体,定义它与总体G的的Mahalanobis距离为:距离为:nixtxtkkii,.,2,111njixxxxtstkjkjikiij,.,2,1,)(111其中,矩阵其中,矩阵S(sij)nn为:为:矩阵
4、矩阵S称为协方差矩阵(称为协方差矩阵(covariance matrix),反映属性指标中第),反映属性指标中第i个个分量与第分量与第j个分量的相关性。个分量的相关性。特别地,当特别地,当n=1时,时,Mahalanobis距离为:距离为:2222)()()(),(xxxGXdxp(x)xp(x)|x-|G1:N(,1)G2:N(,2)21212)(),(xGXd22222)(),(xGXd:考虑具有:考虑具有n个属性的两类总体个属性的两类总体G1、G2,已知已知G1的的p个训练样本,个训练样本,G2的的q个训练样本:个训练样本:)2()2(2)2(1)2(2)2(22)2(21)2(1)2(
5、12)2(11)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11.qnqqnnpnppnnxxxxxxxxxxxxxxxxxx对于未知样本点对于未知样本点X(x1,x2,xn),判别其类型?,判别其类型?G1、G2的总体均值根据样本均值估计得到:的总体均值根据样本均值估计得到:nixqxxpxqkkiipkkii,.,2,1111)2()2(1)1()1(分别求出总体分别求出总体G1、G2的协方差矩阵的协方差矩阵(1)、(2):njixxxxpspkjkjikiij,.,2,1,)(111)1()1()1()1()1(njixxxxqsqkjkjikiij,.,2,
6、1,)(111)2()2()2()2()2(对于任一新样本对于任一新样本X(x1,x2,xn),分别计算它到总体,分别计算它到总体G1、G2的的Mahalanobis距离:距离:)1()1(22)1(111)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11)1()1(22)1(1112.),.,(),(nnnnnnnnnnxxxxxxsssssssssxxxxxxGXd)2()2(22)2(111)2()2(2)2(1)2(2)2(22)2(21)2(1)2(12)2(11)2()2(22)2(1122.),.,(),(nnnnnnnnnnxxxxxxsssssss
7、ssxxxxxxGXd构造判别函数构造判别函数W(X):),(),()(1222GXdGXdXW判别准则为:判别准则为:21时,0)(0)(GXXWGXXW 时,:考虑:考虑n=1的两类正态总体:的两类正态总体:G1:N(1,1)G2:N(2,2)p(x)xG1:N(1,1)G2:N(2,2)1 2222111),(),(xGXdxGXd不妨设不妨设 2 1,2 1,且检测值满足,且检测值满足 2 x 1,则:,则:)()(21211122xxxxW其中其中212112于是,判别准则为:于是,判别准则为:21时,0)(时,0)(GxxWGxxWp(x)xG1:N(1,1)G2:N(2,2)1
8、2*222111),(),(xGXdxGXd:考虑具有:考虑具有n个属性的个属性的m类总体类总体Gl(l=1,2,m),每类总体已知,每类总体已知tl(l=1,2,m)个训练样本:个训练样本:)()(2)(1)(2)(22)(21)(1)(12)(11)2()2(2)2(1)2(2)2(22)2(21)2(1)2(12)2(11)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11.222111mntmtmtmnmmmnmmntttnnntttnnmmmxxxxxxxxxxxxxxxxxxxxxxxxxxx对于未知样本点对于未知样本点X(x1,x2,xn),判别其类型?
9、,判别其类型?类似地,分别计算点类似地,分别计算点X(x1,x2,xn)到每一类到每一类Gl的的Mahalanobis距离距离d2(X,Gl)。)()(22)(111)()(2)(1)(2)(22)(21)(1)(12)(11)()(22)(112.),(lnnlllnnlnlnlnlllnlllnnlllxxxxxxsssssssssxxxxxxGXd其中其中nixtxltklkilli,.,2,111)()(njixxxxtsltkljlkjlilkillij,.,2,1,)(111)()()()()(比较找到其中的最小距离:比较找到其中的最小距离:),(min),(2,.,2,12lml
10、iGXdGXd点点X(x1,x2,xn)到类到类Gi的距离的距离d2(X,Gi)最小,最后判别点最小,最后判别点X(x1,x2,xn)属于第属于第 i 类。类。在在p维空间中找出一种分法,使得平均损失最小维空间中找出一种分法,使得平均损失最小D1D2DjG1,G2 Gk12(),().()kf xfxfx假定属于第假定属于第i类类,把它判为第把它判为第j类造成的损失为类造成的损失为造成这一损失的概率为造成这一损失的概率为D1D2DjG1,G2 Gk12(),().()kf xfxfx12,.,kqqqkk12kii=1j=1g(D,D,.,D)=qL(i,j)p(j/i)L(i,j)iD jp
11、(j/i)=f(x)d x判别函数判别函数D1D2DjG1,G2 Gk12(),().()kf xfxfx12,.,kqqqkiii=1()q f(x)L(i,)dxlhyl|()(),1,2,.lljDy h yhyjk 将将 m组组n维的数据投影到某一个方向,使得投影后的组维的数据投影到某一个方向,使得投影后的组与组之间尽可能地分开。与组之间尽可能地分开。平面上两类数据训练样本的散点图平面上两类数据训练样本的散点图(两组数据样本在平面上存在一个合理的分界线(两组数据样本在平面上存在一个合理的分界线L)x1x2L:c1x1+c2x2c=0令:令:F(x1,x2)=c1x1+c2x2 F(x1
12、,x2):判别函数判别函数 c:判别值:判别值G1G2:数据属性有:数据属性有n个,每个数据点为个,每个数据点为n维向量维向量X:),.,(21nxxxX已知总体数据分为两类:已知总体数据分为两类:G1和和G2 ,总体,总体G1有有p个样本点,总体个样本点,总体G2有有q个样本点。个样本点。属属 性性 (分量)(分量)12n总体总体G1(i=1,p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)总体总体G2(i=1,q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(
13、2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2)xqn(2):求解在:求解在n维空间中总体维空间中总体G1和总体和总体G2的最优分界平面。的最优分界平面。定义线性判别函数为:定义线性判别函数为:nnnxCxCxCxxxF.),.,(221121其中其中Ci(i=1,2,n)为常数(待定系数)。为常数(待定系数)。若判别值为若判别值为 C,对于任何未知数据点对于任何未知数据点X(x1,x2,xn),代入判别函数,代入判别函数,依据依据F(x1,x2,xn)与与C值的比较,可以判别点值的比较,可以判别点X属于哪一类。属于哪一类。1、确定待定系数、确定待定系数Ci(i=1,2,n)
14、2、确定判别值、确定判别值C将类将类G1的的p个点、类个点、类G2的的q个点分别代入判别函数:个点分别代入判别函数:pixCxCxCyinniii,.,1.)1()1(22)1(11)1(qixCxCxCyinniii,.,1.)2()2(22)2(11)2()1()1(22)1(11)1(.nnxCxCxCy)2()2(22)2(11)2(.nnxCxCxCy其中,其中,nixpxpkkii,.,2,111)1()1(nixqxqkkii,.,2,111)2()2(piiypy1)1()1(1qiiyqy1)2()2(1令:令:2)2()1()(yyA A与与G1和和G2两类点的几何中心的距
15、离相关。显然,判别函数两类点的几何中心的距离相关。显然,判别函数F(x1,x2,xn)应该使应该使 A值越大越好。值越大越好。令:令:qiipiiByyyy12)2()2(12)1()1(B与与G1和和G2两类点的相对于各自几何中心的离差相关。显然,判别函两类点的相对于各自几何中心的离差相关。显然,判别函数数F(x1,x2,xn)应该使应该使 B值越小越好。值越小越好。构造函数构造函数I:qiipiiBAnyyyyyyCCCII12)2()2(12)1()1(2)2()1(21),.,(选择合适的待定系数选择合适的待定系数Ci(i=1,2,n),使得函数使得函数I(C1,C2,Cn)达到极大值
16、。达到极大值。niCIi,.,2,10BABAIlnlnlnlnniCCICiBBiAAi,.,2,1011)(lnniCCIiBiA,.,2,10121)2()1(2)2()1()()(nkkkkAxxCyy qjnkkjkkpjnkkjkkqjjpjjBxxCxxCyyyy121)2()2(121)1()1(12)2()2(12)1()1()()()(21)2()1()2()1(iiiAxxyyICInjjijqknjikijkjjpknjikijkjjqkikikpkikikiBCSxxxxCxxxxCxxyyxxyyC111)2()2()2()2(11)1()1()1()1(1)2()
17、2()2()2(1)1()1()1()1(2)(2)(2)(2)(2qkjkjikipkjkjikiijxxxxxxxxS1)2()2()2()2(1)1()1()1()1()()()(.)(.)(.)2()1(2211)2(2)1(22222121)2(1)1(11212111nnnnnnnnnnnxxCSCSCSxxCSCSCSxxCSCSCS)(1)2()1(yyI)2()1(2211)2(2)1(22222121)2(1)1(11212111.nnnnnnnnnnnxxCSCSCSxxCSCSCSxxCSCSCS消去非零的因子消去非零的因子,得到求解待定系数,得到求解待定系数(C1,C
18、2,Cn)的的线性方程组:线性方程组:判别函数已知,不妨写成:判别函数已知,不妨写成:pixCxCxCyinniii,.,1.)1()1(22)1(11)1(qixCxCxCyinniii,.,1.)2()2(22)2(11)2(nnxCxCxCy.2211将将G1的的p个点、个点、G2的的q个点分别代入判别函数:个点分别代入判别函数:piiypy1)1()1(1qiiyqy1)2()2(1qpyqypC)2()1(对对G1、G2的的(p+q)个点的判别函数值取总体的平均值:个点的判别函数值取总体的平均值:)2()1(1)2(1)1(11yqypqpyyqpqiipii显然,显然,值是两类点的
19、判别函数值的加权平均,处于两类判别函数平值是两类点的判别函数值的加权平均,处于两类判别函数平均值之间,也等价于两类点的总体几何中心的判别函数值。因此,将均值之间,也等价于两类点的总体几何中心的判别函数值。因此,将判别值判别值C取为取为 值:值:属属 性性 (分量)(分量)12nG1(i=1,p)1 X1(1)x11(1)x12(1)x1n(1)i Xi(1)xi1(1)xi2(1)xin(1)p Xp(1)xp1(1)xp2(1)xpn(1)G2(i=1,q)1 X1(2)x11(2)x12(2)x1n(2)i Xi(2)xi1(2)xi2(2)xin(2)q Xq(2)xq1(2)xq2(2
20、)xqn(2)已知数据样本点分为两类:已知数据样本点分为两类:G1和和G2,G1有有p个点,个点,G2有有q个点。求出个点。求出判别函数判别函数F(x1,x2,xn)和判别值和判别值C。对于任何未知数据点。对于任何未知数据点X(x1,x2,xn),依据,依据F(x1,x2,xn)与与C值的比较,判别点值的比较,判别点X属于哪一类。属于哪一类。先对样本点数据先对样本点数据Xi(1)(xi1(1),xi2(1),xin(1)(i=1,p)、)、Xi(2)(xi1(2),xi2(2),xin(2)(i=1,q)分别计算以下求和以及平均值:)分别计算以下求和以及平均值:),.,2,1(1)2(1)1(
21、nixxqkkipkki),.,2,1(111)2()2(1)1()1(nixqxxpxqkkiipkkii),.,2,1,(1)2()2(1)1()1(njixxxxqkkjkipkkjki计算计算di和和Sij,注意对称性,注意对称性Sij=Sji:),.,2,1()2()1(nixxdiii),.,2,1,(11)()(1)2(1)2(1)2()2(1)1(1)1(1)1()1(1)2()2()2()2(1)1()1()1()1(njixxqxxxxpxxxxxxxxxxSqkkjqkkiqkkjkipkkjpkkipkkjkiqkjkjikipkjkjikiij解线性代数方程组:解线性
22、代数方程组:nnnnnnnnnndCSCSCSdCSCSCSdCSCSCS.22112222212111212111若方程有解,得到判别函数若方程有解,得到判别函数F:nnnxCxCxCxxxF.),.,(221121将平均值代入判别函数,然后计算判别值将平均值代入判别函数,然后计算判别值C:)1()1(22)1(11)1(.nnxCxCxCy)2()2(22)2(11)2(.nnxCxCxCyqpyqypC)2()1(对未知数据对未知数据X(x1,x2,xn)进行判别:将数据进行判别:将数据X(x1,x2,xn)代入判别代入判别函数函数F,与判别值进行比较,判别其属于哪一类。,与判别值进行比
23、较,判别其属于哪一类。nnxCxCxCy.221121)2()1(GXCyGXCyyy属于,属于,若1属于属于若GXCyGXCyyy,2)2()1(x1x2样本序号x1x2类别1571243237824862536162517661896295424.56.60.60.4)2()1(xx6.06.221dd4571.21143.21143.28857.3S6.04571.21143.26.21143.28857.32121CCCC5418.15080.121CC)1(2)1(1)1(5418.15080.1xxy5264.0C4.56.60.60.4)2()1(xx)2(2)2(1)2(541
24、8.15080.1xxy215418.15080.1xxy5264.05418.15080.121xx本质上基于微分寻优的方法本质上基于微分寻优的方法 1、可能陷入局部最优的判别结果;、可能陷入局部最优的判别结果;2、对数据属性各变量的要求较为苛刻,如正态性、相互、对数据属性各变量的要求较为苛刻,如正态性、相互独立性等;独立性等;N(G1|G2)N(G2|G1)p(x)xG1:N(1,1)G2:N(2,2)1 2*P(G1|G2)P(G2|G1):训练样本集:训练样本集:检测样本集(类别未知):检测样本集(类别未知)用判别方法对已知类型的样本进用判别方法对已知类型的样本进行回判,统计判错的个数
25、以及占样本总数的比例,作为错行回判,统计判错的个数以及占样本总数的比例,作为错判率的估计。判率的估计。容易低估错判率。容易低估错判率。训练集训练集检测集检测集5050学习学习检测检测评价评价“舍一法(舍一法(Leaveone-out)”“Lachenbruch删除法删除法”“交叉确认法交叉确认法(Cross-validation)”基本思想:基本思想:(1).每次从训练样本集中剔除每次从训练样本集中剔除1个样本个样本X;(2).利用其余的样本(数量为利用其余的样本(数量为pq1)作为训练集来训练)作为训练集来训练得到判别准则得到判别准则;(3).根据判别准则对样本根据判别准则对样本X 进行判别
26、;进行判别;(4).对训练样本中的每个样本依次重复进行,记录判别对对训练样本中的每个样本依次重复进行,记录判别对错的个数;错的个数;(5).计算错判率。计算错判率。回判结果回判结果实际归类实际归类Predicted G1Predicted G2合计合计Real G1N(G1|G1)N(G2|G1)Nreal1Real G2N(G1|G2)N(G2|G2)Nreal2合计合计Npred1Npred2定义定义(貌似错判率)为:(貌似错判率)为:realrealNNGGNGGN211221)()(定义定义敏感性(敏感性(sensitivity,Sn)为:为:realrealNGGNSnNGGNSn222)2(111)1()()(定义定义特异性(特异性(specificity,Sp)为:为:predpredNGGNSpNGGNSp222)2(111)1()()(放映放映结束!结束!无悔无愧于昨天,丰硕殷实无悔无愧于昨天,丰硕殷实的今天,充满希望的明天。的今天,充满希望的明天。