多元统计分析期末复习ver3.1.docx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《多元统计分析期末复习ver3.1.docx》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 多元 统计分析 期末 复习 ver3
- 资源描述:
-
1、多元统计分析期末复习多元统计分析期末复习 ver3.1ver3.1 CHAPTERCHAPTER 1 1 绪论绪论 1. 多元统计分析:如果说一元统计分析是研究一个随机变量统计规律的学科, 那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规 律性的一门统计学科。 2. 多元统计分析应用: 对我国三十个省市自治区社会情况我国三十个省市自治区社会情况进行分析,选取人口密度、人均月收入、 人均月消费、物价水平、居住面积为指标指标。样品样品为一个省市自治区的五个指 标的观测值,指标为人口密度、人均月收入、人均月消费、物价水平、居住 面积。 3. 多元统计分析主要内容: 1)简化数据结构
2、(降维问题:主成分分析、因子分析) 2)分类与判别(归类问题) (分类:聚类分析;判别:判别分析) 3)变量间相互关系(多重多元回归分析) 4)多维数据的统计判断 5)多元统计分析的理论基础 CHAPTERCHAPTER 2 2 多元正态分布多元正态分布 1. 正态分布与多元正态分布 p15-16 1)一元正态分布的概率密度函数概率密度函数为 f ? = ? 2 exp ? ? 2 ? ? ?2 ,-x+ 函数图形为钟形曲线(略) 2)多元正态分布 若 p 维随即向量 X=(X1,XP)的密度函数密度函数为: f ? = ? (2)?p?( ? 2 )? exp ? ? 2 x ? ?( ?
3、?)(x ? ) 其中,x=(x1,xp),时随机变量 X 的 p 维均值向量,是 X 的 p 阶协 差阵(是正定阵以保证 -1存在) ,则称 X 服从 p 元正态分布,也称 X 为 p 维正态随机向量,简记为 XNp(,)。p=1 时,即为一元正态分布。 2. 多元正态分布的参数估计 多元正态分布中均值向量均值向量和协差阵协差阵通常是未知的,需由样本样本来估计,用 最大似然估计法最大似然估计法给出其估计量。 3. 多元样本及例子(变量、样品分别是什么) 1) 多元分析研究的总体是多元总体, 从多元总体中随机抽取n个个体 X(1)X(2) X(n),若 X(1)X(2)X(n相互独立且总体同分
4、布,则 X(1)X(2)X(n称为该总体的一个 多元随机样本,简称为简单样本。每个 X(a)=(Xa1,Xa2,Xap)称为一个样品, 其中 Xaj为第 a 个样品对第 j 个指标的观测值,显然每个样品都是 p 维向量, 将 n 个样品对 p 项指标进行观测, 将全部观测结果用一个 n*p 阶矩阵 X 表示。 其中 n 行代表 n 个样品,p 列代表 p 项指标。 2)样本样本举例:北工大 2013 级本科生身体健康状况。变量变量为:身高、体重、 肺活量;样品样品为:北工大 2013 级某一本科生的身高、体重、肺活量观测值。 4. 多元样本的数字特征(老师只细讲了 1)和 3) ) : 设 X
5、(1),,X(n)为 p 元总体的样本,其中 X(a)=(Xa1,Xap),a=1,2,n,则 1) 样本均值向量定义为 2) 样本离差阵定义为: 3) 样本协差阵定义为: 4) 样本相关阵定义为: 5. (总体均值向量) 和 (总体协差阵) 的估计量分别为: 尖=X 拔, 尖=(1/n)S, 即总体均值向量的最大似然估计是样本均值向量,总体协差阵的最大似然估 计是样本协差阵。 它们有如下性质: (1)样本均值向量是总体的无偏估计,而样本协差阵不是 总体的无偏估计; (2)样本均值向量和协差阵分别是总体的有效估计; (3) 样本均值向量和样本协差阵【S/n 或 S/n-1】分别是总体的一致估计
6、(相合估 计) CHAPTERCHAPTER 3 3 假设检验(无明确具体考的内容)假设检验(无明确具体考的内容) 1. 步骤: 1) 提出待检验的假设 H0 和 H1 2) 给出检验的统计量及它服从的分布 3) 给定检验水平,查统计量的分布表,确定临界值,从而得到否定域 4) 根据样本观测值计算出统计量的值,看是否落入否定域中,以便判别假设检验作出 决策(拒绝或接受) 。 2. 内容:事先提出一个关于总体未知分布中参数的一个统计假设,然后完全根据样本提供 的信息为依据,以检验统计量作为工具,对事先提出的假设进行检验,最后作出一个关 于提出的假设是否可接受的统计判断。 理论依据:就是“小概率事
7、件的一次不可能性原理”,即认为,概率很小的随机事件在 一次试验(抽样)当中是不可能发生的。若小概率事件没有发生,认为这是合乎情理的, 与原假设没有发生矛盾。若小概率事件竟然发生了,就认为是不可思议的事情,是不正 常的,这时就应怀疑当初提出的假设的正确性。 CHAPTERCHAPTER 4 4 多元数据图表示方法多元数据图表示方法 轮廓图分析(自己编的) : 1) 标题、横纵轴、单位 2) 极值、趋势 3) 比较异同(某几条线较高/低且相似) 以书中为例:由轮廓图可以看出,肉禽及制品和文娱用品及服务,北京上海远远高于陕西甘 肃;而医疗保健方面,四个城市消费均较低且相似。总体来说,北京上海的居民生
8、活消费支 出水平较高且相似,但健康意识不够强,陕西甘肃生活消费较低且相似。 CHAPTERCHAPTER 5 5 聚类分析聚类分析 1. 变量类型与实例:变量有的是定量的,有的是定性的,因此将变量的类型按以下三种尺 度划分: 1) 间隔尺度:变量用实数表示,如长度、重量、压力、速度等等。 2) 有序尺度: 变量度量时没有明确的数量表示, 而是划分一些等级, 等级之间有次序关系, 如上、中、下三等,而没有数量表示。 3) 名义尺度:变量度量时,既没有数量表示,也没有次序关系,而用不同状态来表示,如 性别有男女;三原色有红黄蓝等。 2. 点与点之间的距离 1) 公式 明氏距离:?t(?) = (
9、?=? ? ? ?t?)?t? q=1 时,?t(?) = ?=? ? ? ?t?,为绝对距离 q=2 时,?t(?) = ( ?=? ? ? ?t?2)?t2?,为欧氏距离 q=时,?t ? = max(? a p)?Xia ? Xja? ,为切比雪夫距离 马氏距离: 设表示指标的协差阵,即:=(ij)pp,其中 如果 -1存在,则两样品之间的马氏距离为 d 2 ij(M)=(X(i)-X(j) -1(X (i)-X(j) X 到总体 G 的马氏距离定义为: d 2(X,G)=(X-)-1(X-) 2) 优缺点 优点缺点 明氏距离(欧式距离)当坐标轴进行正交旋转时, 欧 氏距离是保持不变的。
展开阅读全文