1、有两类样本集有两类样本集,都具有,都具有 n 个指标,两类样本集中个指标,两类样本集中样本的个数分别为样本的个数分别为 p 和和 q,矩阵表示如下:,矩阵表示如下:)1()1(2)1(1)1(2)1(22)1(21)1(1)1(12)1(11)1(pnppnnxxxxxxxxxX问:任一具有这问:任一具有这 n 个指标的待测样本属于哪一类?个指标的待测样本属于哪一类?)2()2(2)2(1)2(2)2(22)2(21)2(1)2(12)2(11)2(qnqqnnxxxxxxxxxXX 和和 Y 均不能使总均不能使总体单位尽可能分开体单位尽可能分开u 能使总体尽可能分开能使总体尽可能分开 nnn
2、xCxCxCxxxF 221121),(nCCC,21(二)费歇判别的数学原理(二)费歇判别的数学原理 把两个总体的所有样品代入上面的判别式把两个总体的所有样品代入上面的判别式)21()1()1(22)1(11)1(p,jxCxCxCyjnnjjj )21()2()2(22)2(11)2(q,jxCxCxCyjnnjjj 假设线性判别函数:假设线性判别函数:nnnxCxCxCxxxF 221121),(分别对上面两式左右相加,再除以样品个数,分别对上面两式左右相加,再除以样品个数,可得两个总体的重心可得两个总体的重心:niiixCy1)1()1(最佳的线性判别函数:两个最佳的线性判别函数:两个
3、重心的距离越重心的距离越大越好大越好,两个组内的,两个组内的离差平方和越小越好离差平方和越小越好。niiixCy1)2()2(组组间间差异为:差异为:21)2(1)1(niiiniiixCxC2)2()1()(yyA 2)2(1)1()(iniiixxC组组内内差异为:差异为:qjjpjjyyyyB12)2()2(12)1()1()()(qjniijiipjniijiixxCxxC121)2()2(121)1()1()()(组组内内差差异异组组间间差差异异定定义义BAI 我们希望我们希望 A 越大越好,越大越好,B 越小越好,即越小越好,即 I 越大越好越大越好。构造的构造的 I 为为 Ci
4、的函数,的函数,I 极大,即:极大,即:0 iCI由于由于 I 的定义式,导致计算困难。的定义式,导致计算困难。取对数取对数 BAIlnlnln 0111 iiiCBBCAACII求导数求导数 iiCBCAI 1由于由于BAI 所以所以 )2()1()2()1(21iiixxyyICAI qkjkjikipkjkjikiijxxxxxxxxS1)2()2()2()2(1)1()1()1()1()()(njjijiCSCB12 )2()1()2(2)1(2)2(1)1(121212221212111nnnnnnnnnxxxxxxCCCSSSSSSSSS化简可得到:化简可得到:(三)(三)Fish
5、er判别的实现步骤判别的实现步骤 1)计算平均数:)计算平均数:),2,1,(1 1 1)2()2(1)1()1(1)1()2(1)1()1(1)2(1)1(njixxxxxqxxpxxxqkkjkipkkjkiqkkiipkkiiqkkipkki 3)计算两类样本的矩阵系数:)计算两类样本的矩阵系数:),2,1,()(1 )(1 )()(1)2(1)2(1)2()2(1)1(1)1(1)1()1(1)2()2()2()2(1)1()1()1()1(njixxqxxxxpxxxxxxxxxxSqkkjqkkiqkkjkipkkjpkkipkkjkiqkjkjikipkjkjikiij 2)计算
6、两类样本特征的平均数的差:)计算两类样本特征的平均数的差:),2,1()2()1(nixxdiii nnnnnnnndddSSSSSSSSSCCC211212222111211214)求方程的系数:)求方程的系数:得到判别函数:得到判别函数:nnnxCxCxCxxxF 221121),(5)带入平均值:)带入平均值:)1()1(22)1(11)1(nnxCxCxCy )2()2(22)2(11)2(nnxCxCxCy 6)判别准则:)判别准则:qpyqypCutoff )2()1(定义临界点为定义临界点为编著的生物数学编著的生物数学徐克学徐克学可参看可参看反之亦然。反之亦然。类类待测样本属于待
7、测样本属于当当类类待测样本属于待测样本属于当当若若 2,1,)2()1(CutoffyCutoffyyy nnxCxCxCy 2211 数数:将将待待测测样样本本代代入入判判别别函函 pnnnppyyyyyyyyyY111212222111211TpsssS,21 马氏距离判别的实现步骤马氏距离判别的实现步骤:),1,2,(1 1111piynynkkii 数数:)计计算算样样本本集集特特征征平平均均2)计算样本集的协方差矩阵为:)计算样本集的协方差矩阵为:ppppppcccccccccC112222111211 111)(11nkjkjikiijyyyync矩矩阵阵元元:)()(1YSCYS
8、DTSY 3)待测样本)待测样本S与样本集与样本集Y的马氏距离:的马氏距离:),(,),(),(min),(21lYSDYSDYSDYSD 这里这里 l 是样本集类别总数。是样本集类别总数。4)判别准则:)判别准则:()()TSYSYCSY也称为也称为主分量分析,是研究如何将多指标问题转化为较小主分量分析,是研究如何将多指标问题转化为较小的新的指标问题的一种方法。综合后的新指标称为的新的指标问题的一种方法。综合后的新指标称为原来指标的主成分。原来指标的主成分。2x1x1F2F112212cossinsincosFxxFxx 2x1x1F2F2x1x1F2F 基本思想和原理基本思想和原理 tnt
9、tnnxxxxxxxxx212222111211n个指标个指标 niiiniiinnniiiiaaaXaaaX,X,XXaXaXaF2121212211 (i=1,2,n)0 jTiFF(ji )0 2121 njjjTniiijTiaaaXXaaaFF nTTXAXA 0021正交矩阵正交矩阵A的第的第 i 列向量刚好可取为主成分向量列向量刚好可取为主成分向量线性表达式系数:线性表达式系数:niiiaaa,21那么矩阵那么矩阵XXT的特征向量和特征值分别为的特征向量和特征值分别为 niiiaaa,21i 挑选主要向量的标准:向量的大小,即向量的模作挑选主要向量的标准:向量的大小,即向量的模作
10、为衡量依据。为衡量依据。nnii 1 这里这里 n 是矩阵是矩阵A的阶数,也是指标的个数。的阶数,也是指标的个数。重要性质:重要性质:iiTiiFFF 2由线性代数知:由线性代数知:即模的平方是对应特征值即模的平方是对应特征值的大小。的大小。及对应及对应的特征向量即可的特征向量即可。因此只需从矩阵因此只需从矩阵XXT中选出最大的前中选出最大的前m个特征值个特征值2.实现方法实现方法第(第(1)步:)步:tkjkjtkikitkjkjikiijyyyyyyyyr12121)()()(表示在原始数据中第表示在原始数据中第 i个性状与个性状与第第 j 个性状之间的相关系数。个性状之间的相关系数。XX
11、RT nnnnnnrrrrrrrrrR212222111211利用相关系数直接计算矩阵利用相关系数直接计算矩阵 (省略计算(省略计算X的过程):的过程):第(第(2)步:)步:以线性代数为基础来计算特征向量和特征值以线性代数为基础来计算特征向量和特征值一、雅可比法一、雅可比法二、软件或程序:二、软件或程序:Sas、matlab等等第(第(3)步:)步:可求出正整数可求出正整数m满足:满足:miimiinWn111 特征值按照从大到小排列:特征值按照从大到小排列:n ,21阈值通常定为阈值通常定为W=70%或或85%获得特征值对应的特征向量获得特征值对应的特征向量第(第(4)步:)步:1)计算第
12、一主成分的贡献率,及前)计算第一主成分的贡献率,及前m个主成分的个主成分的贡献率;贡献率;2)观察第一主成分或前)观察第一主成分或前m个主成分的特征向量分个主成分的特征向量分量的绝对值较大的值,并对应其在原始量的绝对值较大的值,并对应其在原始 数据中的数据中的相关系数值,从而获得有意义的结论;相关系数值,从而获得有意义的结论;3)结合原始数据进行分析;)结合原始数据进行分析;4)用于样本的分类。)用于样本的分类。变量变量企业企业净产值利净产值利润率润率固定资产利固定资产利润率润率总产值利总产值利润率润率销售收入销售收入利润率利润率产品成本产品成本利润利润物耗利物耗利润率润率人均利人均利润率润率
13、流动资金流动资金利润率利润率140.424.77.26.18.38.72.44220.0225.012.711.211.012.920.23.5429.1313.23.33.94.34.45.50.5783.6422.36.75.63.76.07.40.1767.3534.311.87.17.18.08.91.72627.5635.612.516.416.722.829.33.01726.6722.07.89.910.212.617.60.84710.6848.413.410.99.910.913.91.77217.8940.619.119.819.029.739.62.44935.81024
14、.88.09.88.911.916.20.78913.71112.59.74.24.24.66.50.8743.9121.80.60.70.70.81.10.0561.01332.313.99.48.39.813.32.12617.11438.59.111.39.512.216.41.32711.6【例【例】某市为了全面分析机械类个企业的经济效益,选择了某市为了全面分析机械类个企业的经济效益,选择了8个个不同的利润指标,不同的利润指标,14企业关于这企业关于这8个指标的统计数据如下表所示,个指标的统计数据如下表所示,试进行主成分分析。试进行主成分分析。解:解:样本均值向量为:样本均值向量为:(
15、27.979 10.950 9.100 8.543 11.064 14.614 1.552 14.686)Tx 1 0.76266 0.70758 0.64281 0.59617 0.54426 0.62178 0.772851 0.55341 0.51434 0.51538 0.468880.73562 0.7121410.98793 0.9776 0.974090.68282 0.78019 R 1 0.98071 0.97980.69735 0.77306 1 0.99235 0.62663 0.78718 10.6303 0.72449 1 0.62202 1矩阵矩阵R的特征值及相应的
16、特征向量分别为:的特征值及相应的特征向量分别为:特征值特征值特征向量特征向量6.13660.32113 0.29516 0.38912 0.38472 0.37955 0.37087 0.31996 0.355461.0421-0.4151 -0.59766 0.22974 0.27869 0.31632 0.37151 -0.27814 -0.156840.43595-0.45123 0.10303 -0.039895 0.053874 -0.037292 0.075186 0.77059 -0.424780.22037-0.66817 0.36336 -0.22596 -0.11081 0
17、.14874 0.069353 -0.13495 0.559490.15191-0.038217 0.62435 0.12273 -0.036909 0.15928 0.21062 -0.43006 -0.581050.008827-0.10167 0.13584 -0.15811 0.86226 -0.25204 -0.34506 -0.13934 -0.0265570.0029620.1596 -0.061134 -0.53966 0.046606 0.7609 -0.27809 0.06203 -0.131260.0012230.19295 -0.031987 -0.64176 0.11
18、002 -0.25397 0.68791 -0.006045 -0.0054031R的特征值及贡献率:的特征值及贡献率:特征值特征值贡献率(贡献率(%)累计贡献率(累计贡献率(%)6.13660.767080.767081.04210.130270.897340.435950.0544940.951840.220370.0275470.979380.151910.0189880.998370.00882740.00110340.999480.00296240.00037030.999850.00122380.000152971*(1,2,.,8)iiiiixxxis 前前3个标准化样本主成分累
19、积贡献率已达到个标准化样本主成分累积贡献率已达到95.184%,故只需取前三个主成分即可。故只需取前三个主成分即可。前前3个主成分中各标准化变量个主成分中各标准化变量系数即为对应特征向量,由此得到系数即为对应特征向量,由此得到3个标准化样本主成个标准化样本主成分为分为:*112345678*212345678*310.32113x+0.29516x+0.38912x+0.38472x+0.37955x+0.37087x+0.31996x+0.35546x-0.4151x-0.59766x+0.22974x+0.27869x+0.31632x+0.37151x-0.27814x-0.15684x
20、-0.45123x+0.103yyy *234567803x-0.039895x+0.053874x-0.037292x+0.075186x+0.77059x-0.42478x *(1,2,.,8)iiiiixxxis 注意到,注意到,y1近似是近似是8个标准化变量个标准化变量 的等权重的等权重之和,是反映各企业总效应大小的综合指标,之和,是反映各企业总效应大小的综合指标,y1的值越大,则的值越大,则企业的效益越好。企业的效益越好。由于由于y1的贡献率高达的贡献率高达76.708%,故若用,故若用y1的得的得分值对各企业进行排序,分值对各企业进行排序,能从整体上反映企业之间的效应差别。能从整体上反映企业之间的效应差别。将各企业关于将各企业关于xi的观测值代入的观测值代入y1的表达式中,可求得各企业的表达式中,可求得各企业 y1 的得分及其按其得分由大到小的排序结果。的得分及其按其得分由大到小的排序结果。企业企业 1243111071458131269得分得分-0.97-0.65-0.63-0.49-0.22-0.1900.020.180.190.290.650.860.96所以,第所以,第9家企业的效益最好,第家企业的效益最好,第12家企业的效益最差。家企业的效益最差。