数值变量资料的统计分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数值变量资料的统计分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数值 变量 资料 统计分析 课件
- 资源描述:
-
1、1第九章第九章 数值变量资料的统计分析数值变量资料的统计分析 中山大学公共卫生学院中山大学公共卫生学院医学统计与流行病学系医学统计与流行病学系 张晋昕张晋昕2 统 计 描统 计 描述述统计分析统计分析 统 计统 计推断推断3 统 计 描统 计 描述述统计分析统计分析 统 计统 计推断推断4 表表9-1 9-1 某地某地140140名健康成年男子的血清尿素氮浓度名健康成年男子的血清尿素氮浓度(n nmol/Lmol/L)资料。)资料。5 表表9-1 9-1 某地区某地区140140名健康成年男性血清尿素氮浓度名健康成年男性血清尿素氮浓度(nmol/L)(nmol/L)6第一节 数值变量资料的统计
2、描述【例例9-19-1】某地用随机抽样的方法对某地用随机抽样的方法对140140名健康成年男性血名健康成年男性血清尿素氮(清尿素氮(BUNBUN)浓度进行了检测,资料如下,请描述)浓度进行了检测,资料如下,请描述男性血清尿素氮的情况。男性血清尿素氮的情况。表表9-19-1的的140140个数据,无论多认真审视,也说不清这些女个数据,无论多认真审视,也说不清这些女孩身高的情况怎样、特征如何孩身高的情况怎样、特征如何统计描述统计描述就是解决此问题的方法,即用统计表、统计图就是解决此问题的方法,即用统计表、统计图和统计指标来描述样本数据的特征和统计指标来描述样本数据的特征7 表表9-1 9-1 某地
3、区某地区140140名健康成年男性血清尿素氮浓度名健康成年男性血清尿素氮浓度(nmol/L)(nmol/L)8一、数值变量资料的频数分布一、数值变量资料的频数分布 频数(频数(frequencyfrequency):):变量值出现的次数,即例数变量值出现的次数,即例数 频数表(频数表(frequency distribution tablefrequency distribution table):):反映变量值与频数之间关系的统计表反映变量值与频数之间关系的统计表9 表表9-2 9-2 某地区某地区140140名健康成年男性血清尿素氮浓度名健康成年男性血清尿素氮浓度(nmol/L)(nmol
4、/L)频频数表数表10 频数表的制作步骤:频数表的制作步骤:1.1.计算极差(计算极差(rangerange):):本例本例R R6.55-2.10=4.456.55-2.10=4.45(nmol/Lnmol/L)2.2.决定组数、组段和组距(取方便数)决定组数、组段和组距(取方便数)3 3列表划记:见表列表划记:见表9-29-2。11 表表9-2 9-2 某地区某地区140140名健康成年男性血清尿素氮浓度名健康成年男性血清尿素氮浓度 (nmol/L)(nmol/L)频数表频数表12 从频数表可看出有两个重要的特征:从频数表可看出有两个重要的特征:集中趋势(集中趋势(central tend
5、encycentral tendency):):多数数据向中间集中多数数据向中间集中 离散趋势离散趋势(tendency of dispersion)(tendency of dispersion):少数数据向两端分散少数数据向两端分散 13(二二)频数分布图频数分布图(直方图直方图)及其制作及其制作 频数分布图:频数分布图:反映变量值与频数之间关系的统计图(直方图)。反映变量值与频数之间关系的统计图(直方图)。将表将表9-29-2资料绘制成频数分布图(图资料绘制成频数分布图(图9-19-1),可见图形中间可见图形中间高两边低、两边对称高两边低、两边对称 ,认为近似服从认为近似服从正态分布正态
6、分布。14 15(三)频数表与频数图比较 频数表不够直观,但读出数据精确频数表不够直观,但读出数据精确频数图比较直观,但读出数据不精确频数图比较直观,但读出数据不精确16(四)分布类型简述正态分布:正态分布:图图9-19-1可称为正态或近似正态分布(后述)可称为正态或近似正态分布(后述)对数正态分布:对数正态分布:指数据的对数值呈正态分布指数据的对数值呈正态分布偏态分布:偏态分布:若高峰位于一侧,便被称之为偏态分布(高峰若高峰位于一侧,便被称之为偏态分布(高峰偏左为正偏态,反之为负偏态)偏左为正偏态,反之为负偏态)分类意义:分类意义:不同分布类型资料,其描述性统计方法不同不同分布类型资料,其描
7、述性统计方法不同(应对号入座)(应对号入座)17 图图9-2 频数分布逐渐向正态分布接近频数分布逐渐向正态分布接近18二、平均水平指标二、平均水平指标 平均数平均数(averageaverage):描述数值变量资料平均水平):描述数值变量资料平均水平(或集中趋势)的指标。(或集中趋势)的指标。平均数种类:平均数种类:算术平均数(简称均数)、几何平均数、算术平均数(简称均数)、几何平均数、中位数,另有众数以及调和均数。中位数,另有众数以及调和均数。19(一)均数(一)均数(mean)均数符号:总体均数为均数符号:总体均数为(读作(读作mumu),样本均数为),样本均数为1 1直接法计算均数:直接
8、法计算均数:(9-19-1)为求和的符号,读作为求和的符号,读作sigmasigma,x xi i为观察值,为观察值,n n为例数为例数【例例9-29-2】1010名女孩的身高(名女孩的身高(cmcm)的平均值为)的平均值为 142.2142.2(cmcm)10/)6.1371.148.1.1388.1263.1514.132(xnxxxnxxni 21X20 2 2加权法计算均数加权法计算均数 加权法(频数表法)基本思想:以组中值代表组内加权法(频数表法)基本思想:以组中值代表组内的变量值(近似法),简化计算的变量值(近似法),简化计算 计算:表计算:表9-39-3中中 f fi ix xi
9、 i=616.80=616.80,f fi i=140=140,得,得 (9-2)nnniiifffxfxfxffxfx 21221141.414080.616x(nmol/L)21【注注】直接法计算得均数为直接法计算得均数为4.38 4.38(nmol/Lnmol/L),可见加权,可见加权法近似效果很好法近似效果很好。22(二)几何均数(二)几何均数(geometric mean)定义:定义:是将是将n n个观察值个观察值x x的乘积再开的乘积再开n n次方,所得的平方根,次方,所得的平方根,记为记为G G 适用情形:适用情形:(1 1)观察值呈倍数关系(等比级数资料)或近似倍数关系,)观察
10、值呈倍数关系(等比级数资料)或近似倍数关系,如抗体滴度;如抗体滴度;(2 2)对数正态资料。)对数正态资料。231直接法:nnxxxG21)lg(lg)lglglg(lg1211nxnxxxin 24【例例9-39-3】8 8份血清的抗体效价为份血清的抗体效价为1:200,1:25,1:400,1:800,1:50,1:101:200,1:25,1:400,1:800,1:50,1:100,1:50,1:250,1:50,1:25平均抗体效价平均抗体效价为为8/)25lg400lg25lg200(lglg1G =lg-12=100即即 1:100252加权法:加权法:)lg(lg1 iiifx
11、fG)lglglg(lg22111 innfxfxfxf(9-4)26 例例9-4 1129-4 112名儿童接种疫苗一月后名儿童接种疫苗一月后的血清的血清抗体效价为:抗体效价为:1 1人人1:41:4,3 3人人1:81:8,1515人人1:161:16,3232人人1:321:32,4343人人1:641:64,1111人人1:1281:128,5 5人人1:2561:256,2 2人人1:5121:512,得得55.47)1128415.187(lg)25.1531512lg2256lg5.16lg158lg34lg(lg11G 即这即这112名儿童的血清平均抗体效价为名儿童的血清平均抗
12、体效价为1:48 27【注注】计算几何均数的观察值不能小于或等计算几何均数的观察值不能小于或等于于0,因为无法求对数。,因为无法求对数。先加上一常数即可,如先加上一常数即可,如X=KX,则,则X可可取对数。取对数。最终的几何均数结果:最终的几何均数结果:G=GK28(三)中位数(三)中位数(median)与百分位数(与百分位数(percentile)中位数:中位数:一组观察值按大小顺序排列,位置居中的那个数值一组观察值按大小顺序排列,位置居中的那个数值称为中位数,记为称为中位数,记为M。百分位数:百分位数:一组数据从小到大排列,并分成一组数据从小到大排列,并分成100等份,第等份,第x等份等份
13、之分割位置的数值称为之分割位置的数值称为第第x百分位数百分位数,记为,记为Px 例如:例如:x=50,记为,记为P50,读作,读作“第五十百分位数第五十百分位数”(即中位数)(即中位数)29 适用情形:适用情形:适用于任意分布,常用于适用于任意分布,常用于 :偏态分布(如发汞、尿铅);偏态分布(如发汞、尿铅);一端或两端无确定数值;一端或两端无确定数值;分布情况不明。分布情况不明。30 常用百分位数:常用百分位数:P P5050,P P2525,P P7575,P P5 5,P P9595,P P2.52.5,P P97.597.5怎样求解中位数和百分位数?怎样求解中位数和百分位数?31 1中
14、位数的直接估计:n n为奇数时,正中位置的数值就是为奇数时,正中位置的数值就是M M;M MX X(n n+1)/2+1)/2 1 1,2 2,6 6,1010,1919 n n为偶数时,居中位置两个数值的平均数就是为偶数时,居中位置两个数值的平均数就是M M。M M X Xn n/2/2X Xn n/2+1/2+1 2 2 2 2,4 4,8 8,1010,1515,2020322中位数和百分位数的频数表法:(%)xLxiPLn xff L为百分位数对应组段的下限值,为百分位数对应组段的下限值,i为该组为该组段的组距,段的组距,fx为该组段频数,为该组段频数,fL为前一组为前一组累计频数累计
15、频数33三、离散程度指标三、离散程度指标 平均指标描述样本数据的集中趋势(一般水平)平均指标描述样本数据的集中趋势(一般水平)变异指标描述样本数据的离散趋势(差别大小)变异指标描述样本数据的离散趋势(差别大小)34(一)全距(一)全距(range)全距用全距用R R表示,是最大值与最小值之表示,是最大值与最小值之差(又称极差)。差(又称极差)。优点优点 简便;简便;缺点缺点 不稳健(重复抽样时结果变不稳健(重复抽样时结果变化很大),因只利用了化很大),因只利用了2 2个数据的信个数据的信息。息。应用应用 一般分析一般分析。35(二)四分位数间距(二)四分位数间距(quartile interv
16、al)四分位数间距用四分位数间距用Q Q表示,是上四分表示,是上四分位数位数Q QU U(P P7575)和下四分位数)和下四分位数Q QL L(P P2525)之差(中间半数个体的全距)。之差(中间半数个体的全距)。优点优点 比全距稍稳健;比全距稍稳健;缺点缺点 多数数据的信息仍未利用;多数数据的信息仍未利用;应用应用 偏态分布资料。偏态分布资料。36【例例9-79-7】用表用表9-59-5的资料计算四分位数间的资料计算四分位数间距得:距得:77.0)81%25340(4225.075.0LQ(mol/L)75.1)219%75340(3625.050.1UQ98.077.075.1LUQQ
17、Q(mol/L)(mol/L)37(三)方差与标准差(三)方差与标准差 方差(方差(variancevariance):离均差平方的均值):离均差平方的均值NX22)((9-8)1)(22nXXS(9-9)38 *2 2为总体方差,为总体方差,S S2 2为样本方差为样本方差 *方差利用了所有数据的信息,反映平均差别(但量方差利用了所有数据的信息,反映平均差别(但量纲是平方单位)纲是平方单位)*式(式(9-79-7)中)中“n n1 1”为自由度,数理统计认为用为自由度,数理统计认为用自由度作分母较好(自由度作分母较好(无偏估计无偏估计)*标准差标准差(standard deviationst
18、andard deviation):方差的平方根便):方差的平方根便是标准差,其实质是离均差的均值,反映平均差别大是标准差,其实质是离均差的均值,反映平均差别大小小39方差开平方后,使平方单位变为普通的度量单位 为总体标准差,为总体标准差,S为样本标准差为样本标准差 方差和标准差的意义:都反映资料的变异程度大小方差和标准差的意义:都反映资料的变异程度大小40 标准差的用途:标准差的用途:反映一组观察值的离散程度反映一组观察值的离散程度 用于计算变异系数用于计算变异系数 计算标准误(见第三节)计算标准误(见第三节)估计参考值的范围(见第二节)估计参考值的范围(见第二节)41(四)变异系数(四)变
19、异系数(coefficient of variation)记为)记为CV【例例9-109-10】某地某地4040名名7 7岁儿童身高均数为岁儿童身高均数为121.48cm121.48cm,标准差,标准差为为4.65cm;4.65cm;体重均数为体重均数为22.18kg22.18kg,标准差,标准差2.35kg2.35kg。试比较其。试比较其身高和体重的变异程度。身高和体重的变异程度。应用应用:(1 1)变量的度量单位不同;变量的度量单位不同;(2 2)变量的度量单位相同,但是均数的数量变量的度量单位相同,但是均数的数量级相差悬殊。级相差悬殊。%100 xSCV(9-11)身高身高CV=3.83
展开阅读全文