书签 分享 收藏 举报 版权申诉 / 71
上传文档赚钱

类型第十四章统计分析方案课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:2263289
  • 上传时间:2022-03-27
  • 格式:PPT
  • 页数:71
  • 大小:1.48MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第十四章统计分析方案课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第十四 统计分析 方案 课件
    资源描述:

    1、目录第一节统计分析概述第一节统计分析概述第二节描述统计与推断统计第二节描述统计与推断统计第三节单变量统计分析第三节单变量统计分析第四节双变量统计分析第四节双变量统计分析第五节多变量统计分析简介第五节多变量统计分析简介重点问题统计分析概述描述统计和推断统计单变量统计分析双变量统计分析多变量统计分析第一节统计分析概述统计分析就是统计分析就是运用统计学原理和方法运用统计学原理和方法处理调查所获得处理调查所获得的数据资料,的数据资料,简化简化和描述数据资料、和描述数据资料、揭示变量之间的揭示变量之间的统计关系统计关系,并进而,并进而推断总体推断总体的一整套程序和方法。的一整套程序和方法。一、统计分析的

    2、目的简化和描述数据简化和描述数据 用样本推断总体,如平均数、百分比等用样本推断总体,如平均数、百分比等发现变量之间的统计关系发现变量之间的统计关系 二、统计分析的过程数据预处理数据预处理就是在统计分析之前对清理后的数据做预备性处理。就是在统计分析之前对清理后的数据做预备性处理。数据统计分析数据统计分析就是调用统计软件中的各种统计程序对数据进行分析,就是调用统计软件中的各种统计程序对数据进行分析,包括包括单变量单变量、双变量、多变量统计分析,以及制作统计、双变量、多变量统计分析,以及制作统计图、统计表等一系列工作。图、统计表等一系列工作。三、统计分析的层次描述统计和推断统计描述统计和推断统计(按

    3、照统计分析性质按照统计分析性质)描述统计是运用样本统计量描述样本统计特征的统计分描述统计是运用样本统计量描述样本统计特征的统计分析方法。描述统计是相对于推断统计而言的,即凡是析方法。描述统计是相对于推断统计而言的,即凡是只只涉及样本而不涉及总体特征的统计分析方法涉及样本而不涉及总体特征的统计分析方法都属于描述都属于描述统计的范畴。统计的范畴。推断统计则是以概率理论为基础,推断统计则是以概率理论为基础,运用样本统计量推断运用样本统计量推断总体的统计分析方法总体的统计分析方法。两者密不可分两者密不可分单变量、双变量、多变量统计分析单变量、双变量、多变量统计分析(按统计分析涉及变量多少)(按统计分析

    4、涉及变量多少)1 1、单变量统计分析,、单变量统计分析,只能进行描述性研究只能进行描述性研究。只涉及一个变。只涉及一个变量,如平均数、百分比、标准差等。量,如平均数、百分比、标准差等。2 2、只有双变量统计分析、特别是多变量统计分析,才能进、只有双变量统计分析、特别是多变量统计分析,才能进行解释性研究。只有涉及两个或两个以上变量,才有可能分行解释性研究。只有涉及两个或两个以上变量,才有可能分析它们之间的关系(包括相关关系和因果关系)。析它们之间的关系(包括相关关系和因果关系)。3 3、常用的双变量统计分析方法,包括列联表分析与、常用的双变量统计分析方法,包括列联表分析与X X2 2检验、检验、

    5、各种双变量相关分析、二元回归分析等等。各种双变量相关分析、二元回归分析等等。当一项统计分析涉及三个或三个以上变量(其中至少有一个当一项统计分析涉及三个或三个以上变量(其中至少有一个因变量)时,则称为多因变量)时,则称为多变量或多元统计分析变量或多元统计分析。第二节描述统计与推断统计一、描述统计及其内容一、描述统计及其内容描述统计是相对推断统计而言的,就是关于样本的统描述统计是相对推断统计而言的,就是关于样本的统计分析方法,计分析方法,它的分析结果是样本统计量它的分析结果是样本统计量。描述统计。描述统计的内容,包括单变量、双变量和多变量等几种层次的的内容,包括单变量、双变量和多变量等几种层次的统

    6、计分析。统计分析。二、推断统计与抽样分布推断统计是运用样本统计量对推断统计是运用样本统计量对总体进行推断总体进行推断的一种统的一种统计分析方法。由于社会调查的最终目的是研究调查对计分析方法。由于社会调查的最终目的是研究调查对象的总体,因此,它是社会调查中经常使用的统计方象的总体,因此,它是社会调查中经常使用的统计方法。法。推断统计的推断统计的必备前提必备前提是,样本数据必须来自是,样本数据必须来自随机抽样随机抽样调查。调查。所谓抽样分布,是指在一个总体中重复抽取许多大小所谓抽样分布,是指在一个总体中重复抽取许多大小一样的样本的统计量(如平均数、方差、标准差)而一样的样本的统计量(如平均数、方差

    7、、标准差)而形成的分布。形成的分布。需要指出的是,样本的抽样分布只是一种理论分布,需要指出的是,样本的抽样分布只是一种理论分布,而不是一种实际的分布。从理论上建立这样一种分布,而不是一种实际的分布。从理论上建立这样一种分布,目的就是运用它来由样本统计量推断总体。目的就是运用它来由样本统计量推断总体。三个重要分布为了讨论正态总体下的抽样分布,先引入由正态分布导出的统计中的三个重要分布,即 分布,分布,分布。 1、 分布设 是来自总体 的样本,则称统计量 (1)服从自由度为 的 分布,记为2tF2nXXX,211 , 0N222212nXXXn2 n22 n2 其它,0, 0,2212122yey

    8、nyfynn yf此处,自由度是指(1)式右端包含独立变量个数分布的概率密度为的图形如图63所示。(2)图632、 分布t设 , ,且 独立1 , 0 NX nY2YX,服从自由度为 的 分布ntnYXt 则称随机变量(10) ntt 记为t分布又称为学生氏(student)分布 nt分布的概率密度函数为 ,1221212nntnnntht(11 )图65中画出了 的图形。 的图形关于 对称,当 充分大时,其图形类似于标准正态变量概率密度的图形。事实上,利用 函数的性质可得 故当 足够大时, 分布近似于 分布。 但对于较小的 , 分布与 分布相差较大(见附表 3 与附表 2 ) th th0t

    9、n 2221limtnethnt1 , 0Nnt1 , 0N(12)图65 其它,00,12222212112221212111ynynnnynnnnynnnnF3. 分布 ,12nU,22nVVU,设且 独立,21nVnUF 21,nnF则称随机变量服从自由度为 的 分布.,21nnFF记为(16)21,nnF的概率密度为(17)12211,1,nnFnnF容易证明等式:(20)利用这个等式,查附录表,可以计算当995. 0,99. 0,975. 0,95. 0F时的 的值.211. 074. 415 ,10110, 505. 095. 0FF例如F分布的上 分位点有表格可查(见附表 5 )

    10、(一)参数估计(一)参数估计人们通常把样本计算出来的统计值成为样本统计量,简人们通常把样本计算出来的统计值成为样本统计量,简称称统计量统计量,而把总体统计值成为,而把总体统计值成为参数参数。所谓参数估计,。所谓参数估计,就是就是运用统计量对总体参数进行推断或估计的统计运用统计量对总体参数进行推断或估计的统计过过程与统计方法。程与统计方法。参数估计包括:参数估计包括:(1 1)点值估计)点值估计(2 2)区间估计)区间估计三、推断统计的两种基本形式三、推断统计的两种基本形式1、点值估计、点值估计 ,就是选择一个最适当的样本统计量,就是选择一个最适当的样本统计量来直接代表总体的参数值。来直接代表总

    11、体的参数值。如果一个统计量在参数的点值估计中符合如果一个统计量在参数的点值估计中符合无偏性、无偏性、一致性、有效性、充分性一致性、有效性、充分性,则可保证其点值估计,则可保证其点值估计的相对误差较小。的相对误差较小。点值估计的点值估计的最大缺陷是不知道估计的误差到底有最大缺陷是不知道估计的误差到底有多大多大。所以,常用的是区间估计。所以,常用的是区间估计。2、区间估计、区间估计区间估计是用一个数值区间表示未知总体参数落入该区间估计是用一个数值区间表示未知总体参数落入该区间的概率或可能性有多大的一种统计方法,是从点区间的概率或可能性有多大的一种统计方法,是从点估计值和抽样标准误差出发,按给定的概

    12、率值建立包估计值和抽样标准误差出发,按给定的概率值建立包含待估计参数的区间。含待估计参数的区间。()置信区间与置信水平()置信区间与置信水平置信区间是指进行区间估计时,在某一概率水平置信区间是指进行区间估计时,在某一概率水平下总体参数所处的数值区间。区间的上、下限下总体参数所处的数值区间。区间的上、下限(端点)称为临界值,所确定的(端点)称为临界值,所确定的概率水平概率水平称为称为置置信水平信水平或置信度,以概率或置信度,以概率表示,表示,称为显著称为显著性水平性水平,表示该区间估计的不可靠性程度,即估,表示该区间估计的不可靠性程度,即估计参数位于该区间时可能犯错误的概率。计参数位于该区间时可

    13、能犯错误的概率。()区间估计的原理区间估计的理论基础是区间估计的理论基础是抽样分布抽样分布。区间估计的核心问。区间估计的核心问题是把样本统计量与总体参数之间的关系转换成抽样题是把样本统计量与总体参数之间的关系转换成抽样分布来处理。分布来处理。由于抽样分布一定条件下趋近由于抽样分布一定条件下趋近正态分布正态分布,借助抽样分,借助抽样分布的平均数、标准差及其正态分布的统计特性可以对布的平均数、标准差及其正态分布的统计特性可以对样本统计量与总体参数之间的关系作出概率意义上的样本统计量与总体参数之间的关系作出概率意义上的估计与推断。估计与推断。在在95%95%的置信水平条件下,总体平均数的的置信水平条

    14、件下,总体平均数的置信区间置信区间在在99%99%的置信水平条件下,总体平均数的的置信水平条件下,总体平均数的置信区间置信区间196. 1NSX158. 2NSX假设检验假设检验假设检验:是以抽样分布原理为基础,假设检验:是以抽样分布原理为基础,检验调查样本中检验调查样本中的统计特性是否在总体中同样存在的一种统计方法的统计特性是否在总体中同样存在的一种统计方法,它,它是是推断统计推断统计中最重要也是最常用的方法。中最重要也是最常用的方法。首先是事先对总体的参数或分布形式作出一个假设。首先是事先对总体的参数或分布形式作出一个假设。然后利用样本信息判断关于总体性质假设是否合理。然后利用样本信息判断

    15、关于总体性质假设是否合理。即判断总体的真实情况与假设是否存在显着的系统性即判断总体的真实情况与假设是否存在显着的系统性差异。差异。假设检验亦称显著性检验。假设检验亦称显著性检验。事实上,许多研究报告或论文就只有统计描述而没有事实上,许多研究报告或论文就只有统计描述而没有假设检验,但是,必须明确,假设检验,但是,必须明确,有无假设检验的研究结有无假设检验的研究结论,其解释或使用的范围是不同的论,其解释或使用的范围是不同的。不经过假设检验不经过假设检验的研究结论,只能适用于已调查的对象或样本的研究结论,只能适用于已调查的对象或样本(在普(在普遍调查中不存在假设检验问题,因为样本等于总体),遍调查中

    16、不存在假设检验问题,因为样本等于总体),而不能推断总体而不能推断总体;只有在样本统计量基础上经过假设只有在样本统计量基础上经过假设 检验后,才能说样本中发现的现象或规律有多大把握检验后,才能说样本中发现的现象或规律有多大把握在总体中存在或不存在。在总体中存在或不存在。需要明确,并不是所有调查数据多能进行假设检验,需要明确,并不是所有调查数据多能进行假设检验,只有通过只有通过随机抽样调查随机抽样调查得来的数据才有资格进行假设得来的数据才有资格进行假设检验。检验。假设检验假设检验假设检验的过程提出假设:使用证伪的原理建立对立假设。提出假设:使用证伪的原理建立对立假设。虚无假设(虚无假设(H H0

    17、0):是假设在样本中观察到的事实或变量之:是假设在样本中观察到的事实或变量之间的关系在总体中并不存在,即关于间的关系在总体中并不存在,即关于“不存在不存在”假设假设备择假设备择假设:它与虚无假设:它与虚无假设针锋相对针锋相对的假设,即存在。的假设,即存在。构造适当的统计量,并根据样本统计量的具体数值构造适当的统计量,并根据样本统计量的具体数值规定显著水平,建立检验规则规定显著水平,建立检验规则做出判断做出判断 . .假设检验的本质假设检验的本质就是要判断虚无假设是否正确就是要判断虚无假设是否正确若拒绝虚无假设,则意味着接受备择假设若拒绝虚无假设,则意味着接受备择假设虚无假设与备择假设. .备择

    18、假设(备择假设(H H1 1):如果虚无假设错误则是必然正确):如果虚无假设错误则是必然正确的陈述,即与虚无假设相互排斥的假设。的陈述,即与虚无假设相互排斥的假设。表述:逻辑上与虚无假设相反或对立,不能同时成立。表述:逻辑上与虚无假设相反或对立,不能同时成立。表示:参数表示:参数 或或 或或 某个值。某个值。一、集中量数分析一、集中量数分析所谓集中量数分析,是指用一个具体的所谓集中量数分析,是指用一个具体的统计量统计量反映一反映一组数据向组数据向该统计量集中趋势的统计方法该统计量集中趋势的统计方法,它所表示的,它所表示的是一组数据是一组数据集中的程度或水平集中的程度或水平。集中量数有平均数、。

    19、集中量数有平均数、中位数、众数、四分位数、百分位数以及倒数平均数、中位数、众数、四分位数、百分位数以及倒数平均数、几何平均数等。其中,常用的集中量数是几何平均数等。其中,常用的集中量数是平均数、中平均数、中位数和众数位数和众数。第三节 单变量统计分析数据分布的集中性大学生毕业生的平均初始收入是多少?大学生毕业生的平均初始收入是多少?某地区的居民平均年收入是多少?某地区的居民平均年收入是多少?集中性测量:一种将群体描述为一个整体的有用集中性测量:一种将群体描述为一个整体的有用方法是找到一个单独的数字,能够平均地或者典方法是找到一个单独的数字,能够平均地或者典型的代表一个数据集。型的代表一个数据集

    20、。代表值常常位于数据分布的中部代表值常常位于数据分布的中部包括众数、中位数、均值包括众数、中位数、均值集中性的描述指标集中性的描述指标1.1.平均值(均值)平均值(均值) 1 1)定义:称算数平均数,是把一个变量的所有观测值)定义:称算数平均数,是把一个变量的所有观测值相加之和再除以观测值数目得到的数值。相加之和再除以观测值数目得到的数值。 2 2)计算:)计算: X bar X bar 或者或者 X X一杠;一杠;西格玛,累加符号西格玛,累加符号 3 3)特点:)特点:大体位于观察值中部,用于度量重心的平衡点大体位于观察值中部,用于度量重心的平衡点对变量的每一个观察值都加以利用的优点对变量的

    21、每一个观察值都加以利用的优点有计算麻烦,对个别极端值敏感的缺点有计算麻烦,对个别极端值敏感的缺点X11=11=+=nniinXXXXnnn个观测值的和()例题例题1. 某次考试中,5位同学的得分分别为85分、74分、90分、65分、78分,则这5位同学的平均分数为:11=11=+=nniinXXXXnnn个观测值的和()=(85+74+90+65+78)/5=78.4分例题例题如果从调查中获得的是如下5个分组的资料:考试分数考试分数人数人数65分274分478分285分390分3合计14=(65*2+74*4+78*2+85*3+90*3)/14=79.07分NXffXfX例题例题考试分数考试

    22、分数人数人数65-74分475-84分485-100分2合计10如果从调查中获得的是如下5个分组的资料:=((1/2(65+74)*4+1/2(75+84)*4+1/2(85+100)*2/10)=78.1分2下限上限组中值NXffXfX集中性的描述指标集中性的描述指标2.2.中位数中位数 1 1)定义:又称中数、中点数,指位于按顺序排列的一)定义:又称中数、中点数,指位于按顺序排列的一组数据中央位置的数值。是一个变量分布的中间点,组数据中央位置的数值。是一个变量分布的中间点,就是一半观测值比它小,一半观测值比它大的那个数就是一半观测值比它小,一半观测值比它大的那个数值。值。 2 2)方法:)

    23、方法:把所有观测值排顺序,由小到大。把所有观测值排顺序,由小到大。若观测值个数若观测值个数n n为奇数,中位数为奇数,中位数M M就是排序后观测值就是排序后观测值最中间的一个,即数到最中间的一个,即数到(n+1)/2(n+1)/2个位置。个位置。若观察值个数若观察值个数n n为偶数,中位数就是排序后最中间的为偶数,中位数就是排序后最中间的两个观察值的平均。两个观察值的平均。集中性的描述指标集中性的描述指标 五孩子家庭:五孩子家庭:1717岁、岁、1414岁、岁、1212岁、岁、9 9岁、岁、5 5岁岁 六孩子家庭:六孩子家庭:1717岁、岁、1414岁、岁、1212岁、岁、9 9岁、岁、5 5

    24、岁、岁、5 5岁岁 3 3)特点:)特点:优点:中位数很好的代表了一组观察值的中点只需很优点:中位数很好的代表了一组观察值的中点只需很少量的计少量的计缺点:除了中间值,中位数并未利用其他观测值,对缺点:除了中间值,中位数并未利用其他观测值,对极端值不敏感。极端值不敏感。集中性的描述指标3.3.众数众数1 1)定义:又称范数、秘籍数,是变量的观察值中出)定义:又称范数、秘籍数,是变量的观察值中出现次数最多的数值现次数最多的数值2 2)特点:)特点:一般用来描述分类变量;一般用来描述分类变量;有两个值出现最多时,叫做二众数分布;有两个值出现最多时,叫做二众数分布;从图表中很容易找到众数;从图表中很

    25、容易找到众数;众数不能显示比其他数值出现次数多的程度;众数不能显示比其他数值出现次数多的程度;集中性的描述指标集中性的描述指标4.4.计算步骤计算步骤1 1)将数字从高到低排列)将数字从高到低排列2 2)众数:频数最大的数值)众数:频数最大的数值3 3)中位数:最居中的数值)中位数:最居中的数值4 4)平均值:求出观测值的)平均值:求出观测值的总和,将总和除以观测值总和,将总和除以观测值的个数的个数编号编号 身高身高 编号编号 身高身高1 10 01691691 11571571 11 11691692 21631631 12 21691693 31631631 13 31691694 416

    26、31631 14 41751755 51631631 15 51751756 61631631 16 61751757 71691691 17 71751758 81691691 18 81751759 91691691919181181平均数被公认是三种集中量数中最好的一种,也是使平均数被公认是三种集中量数中最好的一种,也是使用最多的一种,用最多的一种,但是它往往受一个或几个极端数据的但是它往往受一个或几个极端数据的影响,使平局数反映数据整体集中趋势的准确性变得影响,使平局数反映数据整体集中趋势的准确性变得面目全非。面目全非。中位数在表现数据整体的集中趋势上,一般没有平均中位数在表现数据整体

    27、的集中趋势上,一般没有平均数数准确,但当一组数据中存在极端数据,或数据中数数准确,但当一组数据中存在极端数据,或数据中有个别数据不准确,中位数平均数更准确反映集中趋有个别数据不准确,中位数平均数更准确反映集中趋势。势。众数被认为最差的一种,但当需要快速而粗略找出一众数被认为最差的一种,但当需要快速而粗略找出一组数据的代表值时,其优越性。组数据的代表值时,其优越性。集中性的描述指标评价集中性的描述指标评价二、离散量数分析所谓离散量数,就是表示一组数据变异程度或分散程所谓离散量数,就是表示一组数据变异程度或分散程度的量数度的量数。离散量数越大,表示数据分布范围越广,。离散量数越大,表示数据分布范围

    28、越广,越不集中,越不整齐;相反,离散量数越小,表示数越不集中,越不整齐;相反,离散量数越小,表示数据分布范围越集中,变动程度越小。据分布范围越集中,变动程度越小。地区地区a aa aa aa aa aa aa ab bb bb bb bb bb bb b年龄年龄6 66 66 66 66 66 66 65 55 56 66 66 67 77 7数据分布的离散性数据分布的离散性数据分布的离散性数据分布的离散性数据存在不同程度的离散性(变异性)数据存在不同程度的离散性(变异性)数据需要从集中性和离散性两个方面描述数据需要从集中性和离散性两个方面描述数据离散程度的描述指标:数据离散程度的描述指标:方

    29、差方差标准差标准差全距全距异众比率异众比率离散系数离散系数偏度系数偏度系数1 1 方差方差方差是一种重要的离散量数,是把一组数据中每个数据相减,将其差进行平方后相加,再除以数据的个数,计算公式 :22NXXNSSS2、标准差标准差:将方差开平方得到的数值标准差:将方差开平方得到的数值 标准差解决了方差单位不明,与观测值单位一致。标准差解决了方差单位不明,与观测值单位一致。标准差用于描述观测值与均值的离散程度。标准差用于描述观测值与均值的离散程度。标准差越大观测值越分散,越小观测值越集中。标准差越大观测值越分散,越小观测值越集中。标准差可以作为单位用于描述个体的偏离程度。标准差可以作为单位用于描

    30、述个体的偏离程度。22()XXSSN3、全距全距:全距: 1 1)定义:一个分布中最大值和最小值之间的差距。)定义:一个分布中最大值和最小值之间的差距。 2 2)计算:全距)计算:全距= =(最大值)(最大值)- -(最小值)(最小值) 3 3)意义:)意义:反映数据间最大变异程度。反映数据间最大变异程度。计算简单,只取决于最大值和最小值。计算简单,只取决于最大值和最小值。只能粗略描述数据分布的离散程度。只能粗略描述数据分布的离散程度。4. 异众比率异众比率,是指非众数的频数与全部个案数的比值,异众比率,是指非众数的频数与全部个案数的比值,用用VR表示,其含义是指众数所不能代表的其他数据表示,

    31、其含义是指众数所不能代表的其他数据(即非众数数据)在总数中的比重。(即非众数数据)在总数中的比重。VR值越大,表示非众数的个案所占总数据的比例越大,值越大,表示非众数的个案所占总数据的比例越大,也就是众数的代表性越小,相反,也就是众数的代表性越小,相反,VR值越小,则表示值越小,则表示众数的代表性越大。众数的代表性越大。异众比率是从反面检验众数的一项指标异众比率是从反面检验众数的一项指标4. 异众比率公式公式表示众数的样本个数表示样本数量表示异众比率00fmnVRnfmnVR例题:一组原始数据为例题:一组原始数据为6,8,4,7,5,8,4,86,8,4,7,5,8,4,8共有共有8 8个数(

    32、个数(n=8n=8),众数),众数M0=8M0=8,非众数,非众数n-fm0=5n-fm0=5VR=8-3/8=0.625VR=8-3/8=0.6255、离散系数所谓离散系数,即标准差与算术平均数的百分比值,所谓离散系数,即标准差与算术平均数的百分比值,用用CV表示。表示。它是一种无量纲的相对数,因而便于进行它是一种无量纲的相对数,因而便于进行比较。比较。公式:公式:CV表示离散系数表示离散系数S表示标准差表示标准差 表示算数平均数表示算数平均数%100XSCVX例题:比较某区一季度二手房成交价格与房屋面积分例题:比较某区一季度二手房成交价格与房屋面积分布的差异程度,假设通过调查得到如下数据:

    33、布的差异程度,假设通过调查得到如下数据: 平均数(平均数( ) 标准差(标准差(S)房屋价格房屋价格 1702817028元元 562562元元房屋面积房屋面积 58.1658.16平方米平方米 2.862.86平方米平方米解:分别求价格、面积的离散系数解:分别求价格、面积的离散系数房屋价格房屋价格: =5.62/170.28=3.3%5.62/170.28=3.3%房屋面积:房屋面积: =2.86/58.16=4.92%=2.86/58.16=4.92%5、离散系数X%100XSCV%100XSCV通过上述计算可以看出,离散量数方差、标准差、全通过上述计算可以看出,离散量数方差、标准差、全距

    34、等,都属于绝对离散量数,即它们都是带有与原观距等,都属于绝对离散量数,即它们都是带有与原观察值(数据)相同量纲(单位)的量数。绝对离散量察值(数据)相同量纲(单位)的量数。绝对离散量数的局限是,只有当两种离散量数的单位相同时,才数的局限是,只有当两种离散量数的单位相同时,才能比较大小,当两种离散量数的单位不同时,就无法能比较大小,当两种离散量数的单位不同时,就无法进行差异比较。进行差异比较。而离散系数可以对不同单位数据比较,如上例题,针而离散系数可以对不同单位数据比较,如上例题,针对房屋价格、面积离散程度,可以看出二手房屋面积对房屋价格、面积离散程度,可以看出二手房屋面积方面的差异明显大于价格

    35、方面的差异。方面的差异明显大于价格方面的差异。5、离散系数6、偏度系数偏度系数是用来描述数据分布特征的统计量数。偏度系数是用来描述数据分布特征的统计量数。所谓偏度,指的是数据分布的所谓偏度,指的是数据分布的偏倾方向偏倾方向和和程度程度,它能说明,它能说明数据总体是否近似于正态分布,从而确定能否进行统计推数据总体是否近似于正态分布,从而确定能否进行统计推断或如何进行统计推断。断或如何进行统计推断。简要介绍两种方法:简要介绍两种方法:(1)按平均数与众数的离差求偏度系数)按平均数与众数的离差求偏度系数。越大,其偏向程度越大时,分布呈负偏态,当时,分布呈正篇,当分布;时,数据呈严格的正态当表示标准差

    36、表示众数值表示样本数据的平均数表示偏度系数;ppppSSSSkSMXSkSMXSkk0k0k0pp00(2 2)按平均数与中位数的离差求偏度系数)按平均数与中位数的离差求偏度系数在数据呈基本正态分布的情况下,平均数、中位数、在数据呈基本正态分布的情况下,平均数、中位数、众数三者之间存在如下关系:众数三者之间存在如下关系:鉴于中位数较之众数更稳定、更具有代表性,故认为鉴于中位数较之众数更稳定、更具有代表性,故认为用平均数与中位数的离差求偏度系数的方法比前一种用平均数与中位数的离差求偏度系数的方法比前一种更好,更准确。更好,更准确。6、偏度系数平均数中位数众数得:公式将这一公式代入前面的XMMSM

    37、dXSXMdXSSXMdMppd)(3)23(k,k2300三、单变量统计推断参数估计参数估计: :是用样本统计量来估计总体参数的。是用样本统计量来估计总体参数的。它通常只涉及一个变量,也涉及两个变量的。参数估它通常只涉及一个变量,也涉及两个变量的。参数估计分为三种情况,即总体平均数的参数估计、总体比计分为三种情况,即总体平均数的参数估计、总体比率的参数估计和总体方差的参数估计。率的参数估计和总体方差的参数估计。假设检验假设检验在单变量统计分析范围内,假设检验分为三种情况,在单变量统计分析范围内,假设检验分为三种情况,即总体平均数的假设检验,总体比率的假设检验和总即总体平均数的假设检验,总体比

    38、率的假设检验和总体方差的假设检验。体方差的假设检验。第四节双变量统计分析一、双变量统计分析的内容一、双变量统计分析的内容两个变量间的相关关系两个变量间的相关关系()按照相关方向的不同,可分为正相关和负相关。()按照相关方向的不同,可分为正相关和负相关。()按照相关强度的不同,可分为完全相关、不相关()按照相关强度的不同,可分为完全相关、不相关和不完全相关。和不完全相关。()按照相关形式的不同,可分为线性相关和非线性()按照相关形式的不同,可分为线性相关和非线性相关。相关。两个变量间的因果关系两个变量间的因果关系,是指一个变量的变化可以确两个变量间的因果关系,是指一个变量的变化可以确定为另一个变

    39、量变化的原因的关系。定为另一个变量变化的原因的关系。二、双变量统计分析的方法在双变量统计分析中,由于变量的测量层次不同,因在双变量统计分析中,由于变量的测量层次不同,因而计算两个变量相关系数的方法和假设检验的方法也而计算两个变量相关系数的方法和假设检验的方法也不相同。不相同。变量的测量层次,可分为定类、定序、定距、变量的测量层次,可分为定类、定序、定距、定比四种类型定比四种类型,这样就形成了多种不同测量层次变量,这样就形成了多种不同测量层次变量的两两组合。的两两组合。58 多变量统计方法是运用数理统计的方法来研究多变量问题的多变量统计方法是运用数理统计的方法来研究多变量问题的理论和方法理论和方

    40、法, ,它是单变量统计统计方法的推广,是研究多个它是单变量统计统计方法的推广,是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计随机变量之间相互依赖关系以及内在统计规律性的一门统计学分支学科。学分支学科。 近年来近年来,多变量统计方法已广泛应用到医学研究的各个领域。,多变量统计方法已广泛应用到医学研究的各个领域。医学现象涉及到的变量不止一个医学现象涉及到的变量不止一个, ,而是多个变量而是多个变量, ,且这些变量且这些变量间又存在一定的联系间又存在一定的联系, ,需要处理多个变量的观测数据。需要处理多个变量的观测数据。第五节多变量统计分析简介59回归分析的分类回归分析的分类多个因变

    41、量多个因变量(y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量 (y) - 线性回归分析线性回归分析分类型因变量分类型因变量 (y) -Logistic 回归分析回归分析时间序列因变量时间序列因变量 (t) -时间序列分析时间序列分析生存时间因变量生存时间因变量 (t) -生存风险回归分析生存风险回归分析一、多变量相关分析()偏相关分析()复相关分析()典型相关分析二、多元回归分析61()多元线性回归分析()多元线性回归分析多元线性回归分析多元线性回归分析也称复线性回归分析复线性回归分析 ,它研究一组自变量如何直接影响一个因变量

    42、。自变量是指独立自由的变量,用向量X表示;因变量是指非独立的、受其它变量影响的变量,用向量Y表示;由于模型仅涉及一个因变量,所以多元线性回归分析也称单变量线性回归分析。() logistic回归分析是自变量为定距、定比变量(或虚拟变量),因变量为定类、定序变量条件下的多元回归分析方法。三、多元方差分析多元方差分析是对多个定类变量(自变量)与多个定距变量(因变量)关系的多元分析方法,其分析的统计原理与方法同一元方差分析相似,只是程序更加复杂。四、因子分析因子分析是一种从众多相关变量中抽取若干个共同因子,从而使复杂数据得以简化的多变量分析方法。五、对数线性模型分析六、结构方程模型分析七、多层线性模

    43、型分析参考应用多变量统计分析应用多变量统计分析 ,孙尚拱 著,2011,科学出版社。基本概念统计分析描述统计推断统计参数估计点值估计区间估计假设检验虚无假设备择假设置信水平置信区间集中量数离散量数相关关系因果关系抽样分布统计量参数消减误差比例 方差与标准差复习思考题如何认识统计分析在社会研究中的作用?(p277-279)怎样理解统计分析的目的?(p277-278)描述统计与推断统计是一种什么样的关系?(p280)如何理解抽样分布的作用?(p280-281)为什么对数据既要进行集中量数分析又要进行离散量数分析?(p284-290)平均数、中位数和众数,各有何优点和缺点?(p284-286)参数估

    44、计与假设检验有什么联系与区别?(p290-291)怎样理解消减误差比例的含义与作用?(p290)变量间的相关关系与因果关系有何不同?(p291-292)如何才能确定变量间的因果关系?(p292)用样本统计量推断总体 用样本统计量推断总体可分为两种情况: 一是参数估计。就是用样本统计量推断总体参数,即反映总体或研究总体的统计值。因为,总体不可能全部调查,总体参数不可能直接得到,只能通过样本统计量来估计,因而称为参数估计。 二是假设检验。假设检验是一种关于在多大置信水平上可用样本统计量推断总体参数的统计方法,其操作程序是,根据研究的问题先建立一个虚无假设或零假设(用H0表示)及与之针锋相对的备择假

    45、设(用H1表示),然后检验样本与总体的关系,即样本能否用来代表总体。 可参阅统计推断(英文版),2004, 机械工业出版社 统计分析的特点(一)数据性:由数据形成概念,从概念形成判断,由判断进行推理,并得出结论。 (二)目的性:统计分析为一定的对象服务,具有明显的针对性。(三)时效性:时间越短,统计分析的价值越高。可参阅http:/ (1)科学性原则。 (2)规范性原则。 (3)效用最大化原则。人有了知识,就会具备各种分析能力,明辨是非的能力。所以我们要勤恳读书,广泛阅读,古人说“书中自有黄金屋。”通过阅读科技书籍,我们能丰富知识,培养逻辑思维能力;通过阅读文学作品,我们能提高文学鉴赏水平,培养文学情趣;通过阅读报刊,我们能增长见识,扩大自己的知识面。有许多书籍还能培养我们的道德情操,给我们巨大的精神力量,鼓舞我们前进。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第十四章统计分析方案课件.ppt
    链接地址:https://www.163wenku.com/p-2263289.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库