书签 分享 收藏 举报 版权申诉 / 43
上传文档赚钱

类型主成分分析讲解课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4283587
  • 上传时间:2022-11-25
  • 格式:PPT
  • 页数:43
  • 大小:629KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《主成分分析讲解课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    成分 分析 讲解 课件
    资源描述:

    1、11/25/2022Dept.of Epidemio&Biostat,SPH1主成分分析主成分分析Principal Component Analysis11/25/2022Dept.of Epidemio&Biostat,SPH2统计学研究的核心问题统计学研究的核心问题?没有变异就没有统计学没有变异就没有统计学变变 异异VARIATION变异性的度量?变异性的度量?方差方差 Variance11/25/2022Dept.of Epidemio&Biostat,SPH3方差是什么?方差是信息多元世界的信息度量多元世界的每个变量的包含信息不同在单个变量方差不变的情况下,各变量相关性越高,则总信息

    2、量越小11/25/2022Dept.of Epidemio&Biostat,SPH4谁更重要?492.008.667477.50337.667历史成绩数学成绩NMeanVariance11/25/2022Dept.of Epidemio&Biostat,SPH5两组变量:A BDescriptive Statistics3080.9561.2773079.4361.7913060.8374.3923080.3782.7723080.8268.3913060.8243.628A1A2A3B1B2B3NMeanVariance11/25/2022Dept.of Epidemio&Biostat,S

    3、PH611/25/2022Dept.of Epidemio&Biostat,SPH711/25/2022Dept.of Epidemio&Biostat,SPH8Correlations1.335.046.3351.056.046.0561A1A2A3A1A2A3Correlations1.996.249.9961.258.249.2581B1B2B3B1B2B311/25/2022Dept.of Epidemio&Biostat,SPH9协方差矩阵协方差矩阵样本的方差样本的方差-协方差矩阵(协方差矩阵(variance-covariance matrix)如果有如果有p个观测变量个观测变量

    4、,则样本则样本的协方差矩阵记为的协方差矩阵记为pxxx,21ppppppsssssssssS212222111211pixxnssjiijiii,2,1,)(1122pkpikixxxxnssjkkjiijkiik,2,1;,2,1;)(1111/25/2022Dept.of Epidemio&Biostat,SPH10相关矩阵相关矩阵 如果有如果有p个观测变量个观测变量 ,其相,其相关阵(关阵(correlation matrix)记为)记为pxxx,2111121221112pppprrrrrrRkipkpisssrkkiiikik;,2,1;,2,1;/11/25/2022Dept.of

    5、 Epidemio&Biostat,SPH11矩阵的特征值和特征向量矩阵的特征值和特征向量 对于方阵对于方阵A,如存在常数,如存在常数及非零向量及非零向量x,使使 Ax=x 则则为为A的一个特征值,的一个特征值,x为与为与对应的矩对应的矩阵阵A的特征向量。的特征向量。n介方阵有介方阵有n对特征值和特征向量对特征值和特征向量11/25/2022Dept.of Epidemio&Biostat,SPH12正交向量(阵)、单位向量正交向量(阵)、单位向量 正交向量:正交向量:a=(a1,ap),b=(b1,bp)如果如果ab=a1b1+apbp=0,则称则称a、b正交正交 单位向量:向量单位向量:向

    6、量a=(a1,ap),如果如果 则称则称a为单位向量为单位向量 正交阵:正交阵:n阶方阵阶方阵A,如果,如果 AA=AA=I,则称,则称A为为n阶正交阵,其中阶正交阵,其中A的列向量(或行向量)为正交向量,的列向量(或行向量)为正交向量,A=A-11.22221paaa11/25/2022Dept.of Epidemio&Biostat,SPH13WEIGHT7472706866646260HEIGHT19018017016015011/25/2022Dept.of Epidemio&Biostat,SPH1411/25/2022Dept.of Epidemio&Biostat,SPH1511

    7、/25/2022Dept.of Epidemio&Biostat,SPH1611/25/2022Dept.of Epidemio&Biostat,SPH17Total Variance ExplainedTotal Variance Explained1.91395.66495.6648.672E-024.336100.000Component12Total%of Variance Cumulative%Initial EigenvaluesExtraction Method:Principal Component Analysis.11/25/2022Dept.of Epidemio&Bio

    8、stat,SPH18 主成分的概念主成分的概念 1 设设x1,x2,xp为为 p 维随机变量维随机变量 X1,X2,Xp的标准化变换的标准化变换 如果其线性组合如果其线性组合 满足满足则称则称C1为第一主成分。为第一主成分。iiiiSXXx/)(ppxaxaxaC12121111.最大,且使)(,1.121212211CVaraaap11/25/2022Dept.of Epidemio&Biostat,SPH19主成分的概念主成分的概念 2 若若满足满足则称则称C2为第二主成分。为第二主成分。类似地,共可得到至多类似地,共可得到至多 p 个主成分。个主成分。ppxaxaxaC22221212.

    9、最大,且使)(,0.,1.2112112222122222221CVaraaaaaaaaappp11/25/2022Dept.of Epidemio&Biostat,SPH20主成分的性质主成分的性质 主成分主成分 C1,C2,Cp 具有以下性质:具有以下性质:(1)主成分间互不相关主成分间互不相关Corr(Ci,Cj)=0 i j(2)组合系数组合系数(ai1,ai2,aip)构成的向量为单位构成的向量为单位向量向量(3)各主成分的方差是依次递减的,各主成分的方差是依次递减的,即即Var(C1)Var(C2)Var(Cp)(4)总方差不增不减,总方差不增不减,即即 Var(C1)+Var(C

    10、2)+Var(Cp)=Var(x1)+Var(x2)+Var(xp)=p 11/25/2022Dept.of Epidemio&Biostat,SPH21主成分的计算主成分的计算 1设设 R 为为 X1,X2,Xp 的相关矩阵,则存在的相关矩阵,则存在 1 2 p0,和正交矩阵,和正交矩阵A,使,使其中其中 i为相关矩阵为相关矩阵R的第的第i个特征值个特征值(eigenvalue)(ai1 ai2 aip)则是相关矩阵则是相关矩阵R的第的第i个特征值对应的特征向量。个特征值对应的特征向量。i是第是第i个主成分的方差个主成分的方差即RAA1.1.1.212211121212221212111pp

    11、ppppppppprrrrrraaaaaaaaaA0011/25/2022Dept.of Epidemio&Biostat,SPH22主成分的计算主成分的计算 2 记主成分记主成分C=(C1 C2 Cp),则,则 C=Ax 即即ppppppppxxxaaaaaaaaaCCC.212122221112112111/25/2022Dept.of Epidemio&Biostat,SPH23主成分的计算主成分的计算 3 因子模型(全分量模型)表达形式因子模型(全分量模型)表达形式 x=AC 即即矩阵矩阵A称载荷矩阵,反映各主成分对原始称载荷矩阵,反映各主成分对原始变量变量x各分量的贡献大小。各分量的

    12、贡献大小。ppppppppCCCaaaaaaaaaxxx.212122212121112111/25/2022Dept.of Epidemio&Biostat,SPH24主成分的计算主成分的计算 4 因子模型(全分量模型)表达因子模型(全分量模型)表达-主成分标准化变换主成分标准化变换ppppppppppppCCCaaaaaaaaaxxx/./.22112211222211212211112111/25/2022Dept.of Epidemio&Biostat,SPH25x=Lcppppppppccclllllllllxxx.2121222121211121lij是是xj和和ci的相关系数的相

    13、关系数SPSS输出的系数矩阵是输出的系数矩阵是L矩阵矩阵iijijla/11/25/2022Dept.of Epidemio&Biostat,SPH26实例实例 城市男生形态资料城市男生形态资料数据来自方积乾数据来自方积乾医学统计学与电脑试验医学统计学与电脑试验第第2 2版版 28城市男生形态指标平均数28城市男生形态指标平均数a a173.28173.2893.6293.6286.7286.7238.9738.9727.5127.5160.1060.10172.09172.0992.8392.8387.3987.3938.6238.6227.8227.8260.3860.38171.4617

    14、1.4692.7892.7885.5985.5938.8338.8327.4627.4659.7459.74170.08170.0892.2592.2585.9285.9238.3338.3327.2927.2958.0458.04170.61170.6192.3692.3687.4687.4638.3838.3827.1427.1459.6759.67171.69171.6992.8592.8587.4587.4538.1938.1927.1027.1059.4459.44171.46171.4692.9392.9387.0687.0638.5838.5827.3627.3658.7058.

    15、70171.60171.6093.2893.2888.0388.0338.6838.6827.2227.2259.7559.75171.60171.6092.2692.2687.6387.6338.7938.7926.6326.6360.5060.50171.16171.1692.6292.6287.1187.1138.1938.1927.1827.1858.7258.721 12 23 34 45 56 67 78 89 91010身高身高坐高坐高胸围胸围肩宽肩宽骨盆宽骨盆宽体重体重Limited to first 10 cases.Limited to first 10 cases.a.a

    16、.11/25/2022Dept.of Epidemio&Biostat,SPH27实例主成分分析结果特征值(方差)及其比例Total Variance ExplainedTotal Variance Explained3.1733.17352.88552.88552.88552.8851.3171.31721.94621.94674.83174.831.937.93715.61315.61390.44590.445.420.4207.0057.00597.44997.449.121.1212.0222.02299.47299.472.032.032.528.528100.000100.000C

    17、omponentComponent1 12 23 34 45 56 6TotalTotal%of Variance%of VarianceCumulative%Cumulative%Extraction Sums of Squared LoadingsExtraction Sums of Squared LoadingsExtraction Method:Principal Component Analysis.11/25/2022Dept.of Epidemio&Biostat,SPH28主成分分析结果L矩阵Component MatrixComponent Matrixa a.930.93

    18、0-.225-.225-.184-.184-.164-.164.079.079.130.130.936.936-.092-.092-.162-.162-.252-.252.106.106-.119-.119.616.616-.054-.054.718.718.296.296.121.121-.003-.003.336.336.753.753-.455-.455.323.323.088.088.002.002.330.330.802.802.379.379-.302-.302-.109-.109.016.016.911.911-.209-.209-.101-.101.217.217-.264-.

    19、264-.016-.016身高身高坐高坐高胸围胸围肩宽肩宽骨盆宽骨盆宽体重体重1 12 23 34 45 56 6ComponentComponentExtraction Method:Principal Component Analysis.6 components extracted.a.注意注意L矩阵的下标,是列在前,行在后矩阵的下标,是列在前,行在后11/25/2022Dept.of Epidemio&Biostat,SPH29主成分分析结果L矩阵Component MatrixComponent Matrixa a.930.930-.225-.225-.184-.184-.164-.

    20、164.079.079.130.130.936.936-.092-.092-.162-.162-.252-.252.106.106-.119-.119.616.616-.054-.054.718.718.296.296.121.121-.003-.003.336.336.753.753-.455-.455.323.323.088.088.002.002.330.330.802.802.379.379-.302-.302-.109-.109.016.016.911.911-.209-.209-.101-.101.217.217-.264-.264-.016-.016身高身高坐高坐高胸围胸围肩宽肩

    21、宽骨盆宽骨盆宽体重体重1 12 23 34 45 56 6ComponentComponentExtraction Method:Principal Component Analysis.6 components extracted.a.注意注意L矩阵的下标,是列在前,行在后矩阵的下标,是列在前,行在后654321xxxxxx654321cccccc11/25/2022Dept.of Epidemio&Biostat,SPH30主成分和原变量的关系 观察观察L矩阵,由相关系数做出解释矩阵,由相关系数做出解释 主成分未必一定有明确的解释主成分未必一定有明确的解释 选取有明确解释的主成分做综合指标

    22、,选取有明确解释的主成分做综合指标,主成分得分就是主成分得分就是“综合指数综合指数”。11/25/2022Dept.of Epidemio&Biostat,SPH31实例的标准化第一主成分得分11/25/2022Dept.of Epidemio&Biostat,SPH32实例的标准化第一、二主成分得分11/25/2022Dept.of Epidemio&Biostat,SPH33主成分数目的保留主成分数目的保留降维问题降维问题 保留多少个主成分取决于保留部分的累保留多少个主成分取决于保留部分的累积方差在方差总和中所占百分比,它标积方差在方差总和中所占百分比,它标志着前几个主成分概括信息之多寡志

    23、着前几个主成分概括信息之多寡。实际上就是看特征值实际上就是看特征值 的大小的大小 保留多少主成分为宜主要根据实际问题保留多少主成分为宜主要根据实际问题和经验决定,并无严格统计规则。和经验决定,并无严格统计规则。11/25/2022Dept.of Epidemio&Biostat,SPH34主成分分析的应用主成分分析的应用 综合指标的抽取综合指标的抽取 主成分回归主成分回归 解决自变量严重共线性问题解决自变量严重共线性问题 主成分判别主成分判别 解决解释变量的共线性问题解决解释变量的共线性问题 变量聚类中计算相似系数变量聚类中计算相似系数 因子分析因子分析11/25/2022Dept.of Ep

    24、idemio&Biostat,SPH35例例-主成分回归主成分回归 22例胎儿受精龄(例胎儿受精龄(Y,周)与胎儿外型测周)与胎儿外型测量指标:量指标:均数均数 标准差标准差身高(身高(X1,cm)33.05 9.71 头围(头围(X2,cm)23.26 6.86体重(体重(X3,g)936.9 690.3 试求由试求由X1、X2、X3推算推算Y的回归方程的回归方程11/25/2022Dept.of Epidemio&Biostat,SPH36例例-主成分回归主成分回归 结果结果1 直接做多重回归结果直接做多重回归结果321007.016.269.101.11XXXY11/25/2022Dep

    25、t.of Epidemio&Biostat,SPH37X1、X2、X3与与Y的相关阵的相关阵X1X2X3YX11X20.9981X30.9440.9471Y0.9520.9430.970111/25/2022Dept.of Epidemio&Biostat,SPH38主成分分析结果主成分分析结果(表中上半部的系数矩阵是矩阵表中上半部的系数矩阵是矩阵A)C1C2C3x1 0.58 -0.42 0.70 x2 0.58 -0.39 -0.71x3 0.57 0.82 0.02Var 2.93 0.07 0.00%97.54 2.38 0.08累积累积%97.54 99.92 10011/25/20

    26、22Dept.of Epidemio&Biostat,SPH39主成分回归分析结果主成分回归分析结果2110.388.373.23CCY333222111157.058.058.0SXXSXXSXXC333222111282.039.042.0SXXSXXSXXC11/25/2022Dept.of Epidemio&Biostat,SPH40主成分回归分析结果主成分回归分析结果321Pr007.015.010.044.10)2(XXXYin321005.019.021.012.8)1.0(XXXYRidge附:本例岭回归分析结果附:本例岭回归分析结果11/25/2022Dept.of Epid

    27、emio&Biostat,SPH41主成分分析应用实例主成分分析应用实例综合指标选取综合指标选取计算主成分的两种方法计算主成分的两种方法 如果各变量具有同等尺度如果各变量具有同等尺度 对角化相关阵还是协方差阵?对角化相关阵还是协方差阵?从协方差阵计算主成分的一个特点:从协方差阵计算主成分的一个特点:方差大的变量倾向在第一主成分上占方差大的变量倾向在第一主成分上占有更大的比重(与从相关阵计算比较)。有更大的比重(与从相关阵计算比较)。11/25/2022Dept.of Epidemio&Biostat,SPH42广州市某年空气污染指标的主成分分析结果广州市某年空气污染指标的主成分分析结果从相关阵计算从相关阵计算从协方差阵计算从协方差阵计算C1C2C3C1C2C3iNOx 0.63-0.17-0.76 0.93-0.30-0.21iTSP 0.51 0.82 0.25 0.29 0.95-0.06iSO2 0.58-0.55 0.60 0.21 0.00 0.97 1.88 0.70 0.424349 891 350%62.723.413.977.815.9 6.311/25/2022Dept.of Epidemio&Biostat,SPH43广州市某2个月的空气污染指数jjjjjaXaiw11/)(_

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:主成分分析讲解课件.ppt
    链接地址:https://www.163wenku.com/p-4283587.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库