统计学(第四版)袁卫庞皓贾俊平杨灿统计学第七章课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学(第四版)袁卫庞皓贾俊平杨灿统计学第七章课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计学 第四 袁卫庞皓贾俊平杨灿 第七 课件
- 资源描述:
-
1、统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 相关与回归分析相关与回归分析第第 7 7 章章统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS实例实例1: 1:中国妇女生育水平的决定因素是什么中国妇女生育水平的决定因素是什么? ?妇女生育水平除了受计划生育政策影响以外,还可能与社会、经济、文化等多种因素有关。1、影响中国妇女生育率变动的因素有哪些?2、各种因素对生育率的作用方向和作用程度如何?3、哪些因素是影响妇女生育率主要的决定性因素?4、如何评价计划生育政策在生育水平变动中的作用?5、计划生育
2、政策与经济因素比较,什么是影响生育率的 决定因素?6、如果某些地区的计划生育政策及社会、经济、文化 等因素发生重大变化,预期对这些地区的妇女生育 水平会产生怎样的影响?统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 据世界卫生组织统计,全球肥胖症患者达3亿人,其中儿童占2200万人,11亿人体重过重。肥胖症和体重超常早已不是发达国家的“专利”,已遍及五大洲。目前,全球因”吃”致病乃至死亡的人数已高于因饥饿死亡的人数。 (引自光明日报刘军/文)问题: 肥胖症和体重超常与死亡人数真有显著 的数量关系吗?这些类型的问题可以运用相关分析与回归分析的这些
3、类型的问题可以运用相关分析与回归分析的方法去解决。方法去解决。实例2:全球吃死的人比饿死的人多?统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 第第7 7章章 相关与回归分析相关与回归分析7.1 相关分析相关分析7.2 一元线性回归分析一元线性回归分析7.3 线性回归的显著性检验与回归预测线性回归的显著性检验与回归预测7.4 多元线性回归分析多元线性回归分析统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 学习目标1 1、变量间的相关关系与相关系数的计算、变量间的相关关系与相关系数的计算2 2、总
4、体回归函数与样本回归函数、总体回归函数与样本回归函数3 3、线性回归的基本假定、线性回归的基本假定4 4、一元线性回归参数的估计与检验、一元线性回归参数的估计与检验5 5、多元线性回归参数的估计与检验、多元线性回归参数的估计与检验6 6、回归预测的方法、回归预测的方法统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS7.1 7.1 相关与回归的基本概念相关与回归的基本概念一、相关关系的概念相关关系的概念二、相关系数二、相关系数三、相关三、相关统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 一、一、相
5、关关系的概念相关关系的概念 确定性的函数关系确定性的函数关系 Y=f (X) 不确定性的统计关系相关关系相关关系 Y= f(X)+ (为随机变量) 没有关系没有关系 变量间关系的图形描述: 坐标图(散点图) 1.变量间的相互关系变量间的相互关系统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 2、相关关系的类型、相关关系的类型 从涉及的变量数量变量数量看 简单相关 多重相关(复相关) 从变量相关关系的表现形式表现形式看 线性线性相关散布图接近一条直线(左图) 非线性非线性相关散布图接近一条曲线(右图)统计学统计学统计学统计学统计学统计学STATI
6、STICSSTATISTICSSTATISTICS 从变量相关关系变化的方向方向看正相关正相关变量同方向变化 A 同增同减 (A)(A)负相关负相关变量反方向变化 一增一减 (B)(B) B 从变量相关的程度看 完全相关 (B) 不完全相关 (A) C 不相关 (C)统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 总体相关系数总体相关系数 对于所研究的总体,表示两个相互联系变量相关程度 的总体相关系数为: 总体相关系数反映总体两个变量总体相关系数反映总体两个变量X X和和Y Y的线性相关程度。的线性相关程度。 特点:特点:对于特定的总体来说,X
7、和Y的数值是既定的 总体相关系数是客观存在的特定数值。 ( , )( )( )Cov x yVar x Var y二、相关系数统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 样本相关系数 通过x和y 的样本观测值去估计样本相关系数变量x和y的样本相关系数通常用 表示 特点:样本相关系数是根据从总体中抽取的随机样本 的观测值计算出来的,是对总体相关系数的估 计,它是个随机变量。 XYrXYrXYrXYrxyr_22()()()()iixyiixxyyrxxyy统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATIS
8、TICS 相关系数的特点: 相关系数的取值在-1与1之间。当r=0时,表明x与y没有线性相关关系。当 时,表明x与y存在一定的线性相关关系: 若 表明x与y 为正相关; 若 表明x与y为负相关。当 时,表明x与y 完全线性相关: 若r=1,称x与y 完全正相关; 若r=-1,称x与y 完全负相关。01r0r 0r 1r 统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 使用相关系数的注意事项: x和y 都是相互对称的随机变量,所以相关系数只反映只反映变量间的线性相关程度,不 能说明非线性相关关系。相关系数不能确定变量的因果关系,也不能 说明相关关
9、系具体接近于哪条直线。xyyx统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 相关系数的检验 为什么要检验?为什么要检验? 样本相关系数是随抽样而变动的随机变量,相关系数的统计显著性还有待检验。检验的依据:检验的依据: 如果x与都服从正态分布,在总体相关系数 的假设下,与样本相关系数 r 有关的 t 统计量服从自由度为n-2的 t 分布: 0221(2)tr nrtn统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 相关系数的检验方法给定显著性水平 ,查自由度为 n-2 的临界值 若 ,表明相关系
10、数 r 在统计上是显著的,应否定 而接受 的假设;反之,若 ,应接受 的假设。 2t2tt0002tt统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 三、 Spearman等级相关系数当变量不满足正态分布要求或不是数量型变量时, 简单线性相关系数不宜使用,可以用Spearman等级相关系数作相关性分析。对于样本容量为n的变量x 和y ,如果取值都可以分为n个等级,而且样本的n个单位分别不重复地属于x和y的不同等级,没有两个单位取相同等级的情况,并且用 表示样本单位属于x的等级与 y的等级的级差。Spearman等级相关系数 为: id2261(
11、1)isdrn n 统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICSSpearman等级相关系数的特性样本等级相关系数的取值范围: 时,说明样本等级完全正相关; 时, 样本等级完全负相关; 时,说明样本等级不相关; 当 时, 越接近1,正相关程度越高;当 时, 越接近-1,负相关程度越高。可以证明:Spearman等级相关系数是简单线性相关系数的特例。11sr 1sr 1sr 0sr 01sr01sr10sr 统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS72 一元线性回归分析一元线性回归分析一、
12、一、相关分析与回归分析的联系二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数三、回归系数的普通最小二乘估计三、回归系数的普通最小二乘估计四、拟合优度度量四、拟合优度度量统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 一一、相关分析与回归分析的联系、相关分析与回归分析的联系回归的古典意义古典意义: 高尔顿遗传学的回归概念高尔顿遗传学的回归概念 父母身高与子女身高的关系父母身高与子女身高的关系: : 无论高个子或低个子的子女无论高个子或低个子的子女 都有向人的平均身高回归的都有向人的平均身高回归的 趋势趋势统计学统计学统计学统计学统计学
13、统计学STATISTICSSTATISTICSSTATISTICS 回归的现代意义回归的现代意义:一个因变量对若干解释变量依存关系的研究回归的目的目的(实质)(实质): 由固定的自变量去估计因变量的平均值由固定的自变量去估计因变量的平均值估计因变估计因变量平均值量平均值统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 相关分析与回归分析的联系共同的研究对象:都是对变量间相关关系的分析只有当变量间存在相关关系时,用回归分析去寻求相关的具体数学形式才有实际意义。相关分析只表明变量间相关关系的性质和程度,要确定变量间相关的具体数学形式依赖于回归分析 相
14、关分析中相关系数的确定建立在回归分析的基础上。统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 二、总体回归函数与样本回归函数二、总体回归函数与样本回归函数 若干基本概念 y的条件分布条件分布: y在x取某固定值条件下的分布。 对于x的每一个取值,都有y的条件期望条件期望与之对应,在坐标图上y的条件期望的点随x而变化的轨迹所形成的直线或曲线,称为回归线回归线。 如果把y的条件期望 表示为x的某种函数: , 这个函数称为回归函数回归函数。 如果其函数形式是只有一个自变量的线性函数,如 , 称为一元线性回归函数一元线性回归函数。 ()iE y x()
15、( )iiE y xf x()iiE y xx统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 总体回归函数(PRF) 概念:概念:将总体因变量y的条件均值表现为自变量x的某种函数,这个函数称为总体回归函数(简记为PRF)。表现形式:表现形式:(1)条件均值表现形式(2)个别值表现形式(随机设定形式)()iiE y xxiiiyxu统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 样本回归函数(SRF)概念:概念: y的样本观测值的条件均值随自变量x而变动的轨迹,称为样本回归线样本回归线。 如果把因
16、变量y的样本条件均值表示为自变量x的某种函数,这个函数称为样本回归函数样本回归函数 (简记为SRF)。表现形式:表现形式:线性样本回归函数可表示为 或者 iiiyxeiiyx统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 样本回归函数与总体回归函数的关系 相互联系 样本回归函数的函数形式应与设定的总体回归函数的函数形式一致 。 和 是对总体回归函数参数的估计。 是对总体条件期望 的估计 残差 e 在概念上类似总体回归函数中的随机 误差u。回归分析的目的: 用样本回归函数去估计总体回归函数。 iY()iE y x统计学统计学统计学统计学统计学统计
17、学STATISTICSSTATISTICSSTATISTICS样本回归函数与总体回归函数的关系 相互区别 总体回归函数虽然未知,但它是确定的; 样本回归线随抽样波动而变化,可以有许多条。 样本回归线还不是总体回归线,至多只是未知总体 回归线的近似表现。 总体回归函数的参数虽未知,但是确定的常数; 样本回归函数的参数可估计,但是随抽样而变化的随机变量。 总体回归函数中的 是不可直接观测的; 而样本回归函数中的 是只要估计出样本回归的参数就可以计算的数值。 iuie统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 三、回归系数的普通最小二乘估计三、回
18、归系数的普通最小二乘估计回归系数估计的思想:回归系数估计的思想:为什么只能对未知参数作估计为什么只能对未知参数作估计? ? 参数是未知的、不可直接观测的、不能精确计算的参数是未知的、不可直接观测的、不能精确计算的 能够得到的只是变量的样本观测值能够得到的只是变量的样本观测值结论结论: :只能通过变量样本观测值选择适当方法去近似只能通过变量样本观测值选择适当方法去近似 地估计回归系数。地估计回归系数。前提前提: : u u是随机变量其分布性质不确定,必须作某些是随机变量其分布性质不确定,必须作某些 假定,其估计才有良好性质,其检验才可进行。假定,其估计才有良好性质,其检验才可进行。原则原则: :
19、 使参数估计值使参数估计值“尽可能地接近尽可能地接近”总体参数真实值总体参数真实值统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 一元线性回归的基本假定假定假定1 1:零均值假定。假定假定2 2:同方差假定。 假定假定3 3:无自相关假定。 假定4:随机扰动 与自变量 不相关。假定假定5 5:正态性假定()0iiE u xiu222()()()iiiiiiVar u xE uE u xE u ( ,)( )()( ,)0ijiijjijCov u uE uE uuE uE u uix2(0,)iuN( ,)( )( )0iiiiiiCov u
20、xE uE uxE x统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 回归系数的回归系数的最小二乘估计估计基本思想: 希望所估计的 偏离实际观测值 的残差 越小越好。可以取残差平方和 作为衡量 与 偏离程度的标准最小二乘准则估计式: iyiyie2ie22()iiiiiinx yxynxx _2()()()iiixxyyxxyxiyiy统计学统计学统计学统计学统计学统计学STATISTICSSTATISTICSSTATISTICS 最小二乘估计的概率分布性质最小二乘估计的概率分布性质 和和 都是服从正态分布的随机变量,其都是服从正态分布的随机变
展开阅读全文