书签 分享 收藏 举报 版权申诉 / 7
上传文档赚钱

类型多元统计分析期末复习ver3.1.docx

  • 上传人(卖家):罗嗣辉
  • 文档编号:1768361
  • 上传时间:2021-10-01
  • 格式:DOCX
  • 页数:7
  • 大小:859.97KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《多元统计分析期末复习ver3.1.docx》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    多元 统计分析 期末 复习 ver3
    资源描述:

    1、多元统计分析期末复习多元统计分析期末复习 ver3.1ver3.1 CHAPTERCHAPTER 1 1 绪论绪论 1. 多元统计分析:如果说一元统计分析是研究一个随机变量统计规律的学科, 那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规 律性的一门统计学科。 2. 多元统计分析应用: 对我国三十个省市自治区社会情况我国三十个省市自治区社会情况进行分析,选取人口密度、人均月收入、 人均月消费、物价水平、居住面积为指标指标。样品样品为一个省市自治区的五个指 标的观测值,指标为人口密度、人均月收入、人均月消费、物价水平、居住 面积。 3. 多元统计分析主要内容: 1)简化数据结构

    2、(降维问题:主成分分析、因子分析) 2)分类与判别(归类问题) (分类:聚类分析;判别:判别分析) 3)变量间相互关系(多重多元回归分析) 4)多维数据的统计判断 5)多元统计分析的理论基础 CHAPTERCHAPTER 2 2 多元正态分布多元正态分布 1. 正态分布与多元正态分布 p15-16 1)一元正态分布的概率密度函数概率密度函数为 f ? = ? 2 exp ? ? 2 ? ? ?2 ,-x+ 函数图形为钟形曲线(略) 2)多元正态分布 若 p 维随即向量 X=(X1,XP)的密度函数密度函数为: f ? = ? (2)?p?( ? 2 )? exp ? ? 2 x ? ?( ?

    3、?)(x ? ) 其中,x=(x1,xp),时随机变量 X 的 p 维均值向量,是 X 的 p 阶协 差阵(是正定阵以保证 -1存在) ,则称 X 服从 p 元正态分布,也称 X 为 p 维正态随机向量,简记为 XNp(,)。p=1 时,即为一元正态分布。 2. 多元正态分布的参数估计 多元正态分布中均值向量均值向量和协差阵协差阵通常是未知的,需由样本样本来估计,用 最大似然估计法最大似然估计法给出其估计量。 3. 多元样本及例子(变量、样品分别是什么) 1) 多元分析研究的总体是多元总体, 从多元总体中随机抽取n个个体 X(1)X(2) X(n),若 X(1)X(2)X(n相互独立且总体同分

    4、布,则 X(1)X(2)X(n称为该总体的一个 多元随机样本,简称为简单样本。每个 X(a)=(Xa1,Xa2,Xap)称为一个样品, 其中 Xaj为第 a 个样品对第 j 个指标的观测值,显然每个样品都是 p 维向量, 将 n 个样品对 p 项指标进行观测, 将全部观测结果用一个 n*p 阶矩阵 X 表示。 其中 n 行代表 n 个样品,p 列代表 p 项指标。 2)样本样本举例:北工大 2013 级本科生身体健康状况。变量变量为:身高、体重、 肺活量;样品样品为:北工大 2013 级某一本科生的身高、体重、肺活量观测值。 4. 多元样本的数字特征(老师只细讲了 1)和 3) ) : 设 X

    5、(1),,X(n)为 p 元总体的样本,其中 X(a)=(Xa1,Xap),a=1,2,n,则 1) 样本均值向量定义为 2) 样本离差阵定义为: 3) 样本协差阵定义为: 4) 样本相关阵定义为: 5. (总体均值向量) 和 (总体协差阵) 的估计量分别为: 尖=X 拔, 尖=(1/n)S, 即总体均值向量的最大似然估计是样本均值向量,总体协差阵的最大似然估 计是样本协差阵。 它们有如下性质: (1)样本均值向量是总体的无偏估计,而样本协差阵不是 总体的无偏估计; (2)样本均值向量和协差阵分别是总体的有效估计; (3) 样本均值向量和样本协差阵【S/n 或 S/n-1】分别是总体的一致估计

    6、(相合估 计) CHAPTERCHAPTER 3 3 假设检验(无明确具体考的内容)假设检验(无明确具体考的内容) 1. 步骤: 1) 提出待检验的假设 H0 和 H1 2) 给出检验的统计量及它服从的分布 3) 给定检验水平,查统计量的分布表,确定临界值,从而得到否定域 4) 根据样本观测值计算出统计量的值,看是否落入否定域中,以便判别假设检验作出 决策(拒绝或接受) 。 2. 内容:事先提出一个关于总体未知分布中参数的一个统计假设,然后完全根据样本提供 的信息为依据,以检验统计量作为工具,对事先提出的假设进行检验,最后作出一个关 于提出的假设是否可接受的统计判断。 理论依据:就是“小概率事

    7、件的一次不可能性原理”,即认为,概率很小的随机事件在 一次试验(抽样)当中是不可能发生的。若小概率事件没有发生,认为这是合乎情理的, 与原假设没有发生矛盾。若小概率事件竟然发生了,就认为是不可思议的事情,是不正 常的,这时就应怀疑当初提出的假设的正确性。 CHAPTERCHAPTER 4 4 多元数据图表示方法多元数据图表示方法 轮廓图分析(自己编的) : 1) 标题、横纵轴、单位 2) 极值、趋势 3) 比较异同(某几条线较高/低且相似) 以书中为例:由轮廓图可以看出,肉禽及制品和文娱用品及服务,北京上海远远高于陕西甘 肃;而医疗保健方面,四个城市消费均较低且相似。总体来说,北京上海的居民生

    8、活消费支 出水平较高且相似,但健康意识不够强,陕西甘肃生活消费较低且相似。 CHAPTERCHAPTER 5 5 聚类分析聚类分析 1. 变量类型与实例:变量有的是定量的,有的是定性的,因此将变量的类型按以下三种尺 度划分: 1) 间隔尺度:变量用实数表示,如长度、重量、压力、速度等等。 2) 有序尺度: 变量度量时没有明确的数量表示, 而是划分一些等级, 等级之间有次序关系, 如上、中、下三等,而没有数量表示。 3) 名义尺度:变量度量时,既没有数量表示,也没有次序关系,而用不同状态来表示,如 性别有男女;三原色有红黄蓝等。 2. 点与点之间的距离 1) 公式 明氏距离:?t(?) = (

    9、?=? ? ? ?t?)?t? q=1 时,?t(?) = ?=? ? ? ?t?,为绝对距离 q=2 时,?t(?) = ( ?=? ? ? ?t?2)?t2?,为欧氏距离 q=时,?t ? = max(? a p)?Xia ? Xja? ,为切比雪夫距离 马氏距离: 设表示指标的协差阵,即:=(ij)pp,其中 如果 -1存在,则两样品之间的马氏距离为 d 2 ij(M)=(X(i)-X(j) -1(X (i)-X(j) X 到总体 G 的马氏距离定义为: d 2(X,G)=(X-)-1(X-) 2) 优缺点 优点缺点 明氏距离(欧式距离)当坐标轴进行正交旋转时, 欧 氏距离是保持不变的。

    10、因此, 如果对原坐标系进行平移和 旋转变换, 则变换后样品点间 的相似情况(即它们间的距 离)完全等同于变换前的情 形。 1、它与各指标的量纲有关, 即变量的数量级和量纲影响 着欧式距离 2、它没有考虑指标之间的相 关性 马氏距离1、 排除变量间相关性的干扰, 且不受量纲的影响 夸大了变化微小的变量(或指 标)的作用(因为赋予的权重 较大)2、可以证明,将原始数据作 一线性交换后, 马氏距离仍不 改变 补充: 1、使用欧氏距离要求一个向量的 n 个分量不相关且具有相同的方差,或者说各坐标对 欧氏距离的贡献是同等的且变差大小也是相同的,否则不能如实反映情况。 2、马氏距离可以排除变量间相关性的干

    11、扰,且不受量纲的影响,但用全部是据计算均 值和协差阵来求,效果不好,比较合理的方法时用各类的样本来计算各自的协差阵,同 一类样本的马氏距离应该用这一类的协差阵来计算,但类的形成需要依赖于样品间的距 离,而样品间的距离又依赖于类,这就形成了一个恶性循环。 3. 八种聚类方法的区分以及为何区分 系统聚类分析尽管方法很多,但归类的步骤基本上是一样的,所不同的仅是类与类所不同的仅是类与类 之间的距离有不同的定义方法之间的距离有不同的定义方法,从而得到不同的计算距离的公式从而得到不同的计算距离的公式。这些公式在形式上不 大一样,但最后可将它们统一为一个公式,为上机计算带来很大的方便 。 4. P71-7

    12、4/5.1 最短及最长距离法 CHAPTERCHAPTER 6 6 判别分析判别分析 1.判别分析与聚类分析的异同(简答题) 聚类分析是研究(样品或变量)分类问题的一个多元统计方法(类指相似元素的集合) 。 判别分析是判别样品所属类型的一种统计方法。 聚类分析和判别分析都是用来对样品进行分类, 即分析每一个样品归属于哪一类。 但是, 判别分析是先已知某些样品的分类结果,然后总结出判别规则,是一种有指导的学习。即: 判别分析是在已知研究对象分成若干类型(或组别)并已取得各种类型的一批已知样品的观 测数据,在此基础上根据某些准则建立判别式,然后对未知类型的样品进行归类判别。 聚类分析则是有了一批给

    13、定的样品, 而要划分的类型事先并不知道, 甚至连分成几类也 不知道,希望用某种方法把观测进行合理的分类,使得同一类的观测比较接近,不同类的观 测相差较多,这是一种无指导的学习。 正因为如此,判别分析和聚类分析往往联合起来使用。当总体分类不清楚时,可先用聚 类分析对原来的一批样品进行分类, 然后再用判别分析建立判别式, 从而对新样品进行判别。 判别分析的目的是对已知分类的数据建立由数值指标构成的分类规则, 然后把这样的规 则应用到未知分类的样品去分类。 【例如, 我们有了患胃炎的病人和健康人的一些化验指标, 就可以从这些化验指标发现 两类人的区别, 把这种区别表示为一个判别公式, 然后对怀疑患胃

    14、炎的人根据其化验指标用 这个判别公式进行诊断。 】 CHAPTERCHAPTER 7 7 主成分分析主成分分析 CHAPTERCHAPTER 8 8 因子分析因子分析 1.概念: 主成分分析:主成分分析是将多个指标化的少数几个综合指标的一种统计方法。 因子分析:因子分析是主成分分析的推广和发展,它也是将具有错综复杂关系的变量(或样 品)综合为数量较少的几个因子,以再现原始变量与因子之间的相互关系,同时根据不同音 字还可以对变量进行分类,它也属于多元分析中处理降维的一种统计方法。 2.主成分与因子分析的联系和异同(实验指导书 P90) 区别: (1)两种方法的实质不同。主成分分析仅仅是一种数据变

    15、化,不假定数据矩阵有何种 结构形式,而因子分析假定数据矩阵有特定的模型,且其中的因子满足特定的条件,当这些 条件不满足时,因子分析就有可能是虚假的。 (2)两种方法的侧重点不同。主成分分析重点在于从变量到主成分的变换上,而因子分析 的重点在于从公因子和特殊因子到变量的变换上。 并且主成分的变换是可逆的, 而因子分析 则不要求。 (3)两者的应用范围也有所不同。主成分分析主要应用在综合评价和指标筛选上,而因子 分析除了这两个应用外,还可以用于对样品或变量的分类。 联系: (1)二者都是属于多元分析中处理降维的统计方法。 (2)二者都是从变量(或样品)的相关矩阵出发,找出能够控制所有变量(或样品)

    16、的少 数几个随即变量去描述很多变量之间的相关关系。 (3)因子分析是主成分分析的推广,而主成分分析是因子分析的特殊情形。当因子分析中 的特殊因子 u 的影响微不足道直至可以忽略时, 如果 F 中各个分量均是正交的, 就可以转化 为主成分分析。因此当因子模型成立,且特殊因子方差贡献很小时,可以期待主成分分析与 因子分析会给出相同的结果。 (4)当特殊因子的方差贡献较大时,因子分析会将公共因子与特殊因子严格区别开来,而 主成分分析则将这些因子(包括公因子与特殊因子)不加区别的混在一起被保留或被舍弃。 3.如果给出载荷矩阵(A 矩阵) ,首先要会判断出,矩阵中元素是 aij,其意义是什么? 会计算公

    17、因子,方差贡献,变量共同度,及其统计意义 1)aij,即因子载荷 定义:第 i 个变量在第 j 个公共因子上的负荷 几何意义:如果把变量 Xi 看成 m 维因子空间中的一个向量,则 aij表示 Xi在坐标轴 Fj上的 投影。 2)因子载荷 统计意义:第 i 个变量与第 j 个公共因子的相关系数,即表示 Xi 依赖 Fj 的份量 3)变量共同度 定义: 统计意义:全部公共因子对变量 Xi 的总方差所作的贡献 4)公因子 F 的方差贡献 4.因子分析模型,分解为公共因子公共因子和特殊因子特殊因子两部分 Xiai1F1十 ai2F2十十 aimFm十i(il,p) 用这 m 个不可观测的、相互独立的

    18、、公共因子 F1,Fm(也称为潜因子)和一个特殊因子 i来描述原始可测变量(科目) X1,Xp 补充说明:补充说明: 四种分析法的 SPSS 操作步骤(具体步骤参考实验指导书) 聚类分析:AnalyzeClassifyHierarchical clusterP35 判别分析:AnalyzeClassifyDiscriminantP49 主成分分析:AnalyzeData ReductionFactorP76 因子分析:AnalyzeData ReductionFactorP92 主成分分析与因子分析核心: Descriptives.:选择描述统计量的按钮 Extraction.:因子提取按钮 Rotation.:旋转方法选择按钮 Scores.:因子得分按钮 Options.:选择项按钮

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:多元统计分析期末复习ver3.1.docx
    链接地址:https://www.163wenku.com/p-1768361.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库