统计研究生1定量的统计描述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计研究生1定量的统计描述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 研究生 定量 描述 课件
- 资源描述:
-
1、数值变量的统计描述数值变量的统计描述频数分布频数分布集中趋势描述集中趋势描述离散趋势描述离散趋势描述2频数分布3频数表频数表n频数表频数表(frequency table):n相同观察值或观察结果出现的次数称为频数相同观察值或观察结果出现的次数称为频数n观察值及其相应的频数按一定顺序排列的表格即观察值及其相应的频数按一定顺序排列的表格即频数表频数表n可用手工和计算机软件(如可用手工和计算机软件(如SAS、SPSS等)方便等)方便制作频数表。制作频数表。4离散型数值变量的频数分布离散型数值变量的频数分布例3-1 1998年某山区96名孕妇产前检查次数资料如下:0,3,2,0,1,5,6,3,2,
2、4,1,0,6,5,1,3,3,4,7等共96个数值51998年某地96名妇女产前检查次数分布检查次数频数频率(%)累计人数累计频率(%)(1)(2)(3)(4)(5)044.244.2177.31111.521111.52222.931313.53536.542627.16163.552324.08487.551212.596100.0合计961006频数分布图频数分布图(frequency graph)图3-1图 2-1 某 地 96名 妇 女 产 前 检 查 次 率 分 布0510152025300123455产 前 检 查 次 数频率(%)7n例例3-2 从某单位从某单位1999年的职
3、工体检资料年的职工体检资料中获得中获得101名正常成年女子的血清总胆固名正常成年女子的血清总胆固醇(醇()的测量结果如下,试编制)的测量结果如下,试编制频数分布表。频数分布表。mmol/L连续型定量变量的频数分布连续型定量变量的频数分布82.35 4.21 3.32 5.35 4.17 4.13 2.78 4.26 3.58 4.34 4.84 4.41 4.78 3.95 3.92 3.58 3.66 4.28 3.26 3.50 2.70 4.61 4.75 2.91 3.91 4.59 4.19 2.68 4.52 4.91 3.18 3.68 4.83 3.87 3.95 3.91 4
4、.15 4.55 4.80 3.41 4.12 3.95 5.08 4.53 3.92 3.58 5.35 3.84 3.60 3.51 4.06 3.07 3.55 4.23 3.57 4.83 3.52 3.84 4.50 3.96 4.50 3.27 4.52 3.19 4.59 3.75 3.98 4.13 4.26 3.63 3.87 5.71 3.30 4.73 4.17 5.13 3.78 4.57 3.80 3.93 3.78 3.99 4.48 4.28 4.06 5.26 5.25 3.98 5.03 3.51 3.86 3.02 3.70 4.33 3.29 3.25 4
5、.15 4.36 4.95 3.00 3.26 9频数表编制步骤频数表编制步骤n1.求极差求极差:n极差(极差(range)也称全距,即最大值和最小)也称全距,即最大值和最小值之差,记作值之差,记作R。n本例本例:5.712.353.36(mmol/L)R 10 n2.定组数:定组数:n以原始资料变量值个数组段数来确定组数,当以原始资料变量值个数组段数来确定组数,当n100n 中位数为多少中位数为多少?37计算计算n公式公式:n n为奇数时为奇数时 n nn为偶数时为偶数时 n特点:仅仅利用了中间的特点:仅仅利用了中间的12个数据个数据1()2nMX()(1)2212nnMXX387名病人患某
6、病的潜伏期分别为名病人患某病的潜伏期分别为2,3,4,5,6,9,16天,求其天,求其中位数中位数。n本例本例n=7,为奇数为奇数 n例例2-7 8名患者食物中毒的潜伏期分别为名患者食物中毒的潜伏期分别为1,2,2,3,5,8,15,24小时,求其中位数。小时,求其中位数。n本例本例n=8,为偶数为偶数 7 14()25()MXX天8845()(1)22111354()222MXXXX小时39应用应用n1、各种分布各种分布类型的资料类型的资料n2、特别是、特别是偏态分布偏态分布资料和资料和开囗资料开囗资料(一端或两端无(一端或两端无确切数值的资料)。确切数值的资料)。40(二)百分位数(二)百
7、分位数n百分位数(百分位数(percentile)是一种位置指标,)是一种位置指标,用用 来表示。来表示。n把一组观察值从小到大排列,分为把一组观察值从小到大排列,分为100等等份,与份,与x%x%位次所对应的数值即为第百分位次所对应的数值即为第百分之之x x位数。位数。n一个百分位数一个百分位数 将全部变量值分为两部将全部变量值分为两部分,在不包含分,在不包含 的全部变量值中有的全部变量值中有 的变量值比它小,的变量值比它小,变量值比变量值比它大。它大。XPXP%X(100)%XXP411、直接计算法 n 设有x个原始数据从小到大排列,第x百分位数的计算公式为:nPxx%(n+1)422、频
8、数表法、频数表法值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值)%(xnPx下限值下限值L上限值上限值Ui;fx百分位数百分位数Px)%(Lfxn43n公式:公式:(%)XXXLXiPLnXff式中XL、Xi和Xf分别为第X百分位数所在组段 的下限、组距和频数,Lf为小于XL各组段的累计频数,n 为总例数。44 n当当X%=50%时,即为中位数的计算公式时,即为中位数的计算公式50505050()2LinMPLff45某地某地118名链球菌咽喉炎患者的潜伏期频数表见名链球菌咽喉炎患者的潜伏期频数表见表第表第(1)、(2)栏,试分别求中位数及第栏,试分别求中位数及第25、第
9、、第75百分位数。百分位数。46 5012 11848(53)51()242MP天251236(118 25%21)39.2()32P 天751260(118 75%77)67.7()18P 天47四四.众数(众数(mode)n出现次数(或频数)最多的观察值;在出现次数(或频数)最多的观察值;在频数分布图中对应于高峰所在位置的观频数分布图中对应于高峰所在位置的观察值,众数可以不只一个。适用于大样察值,众数可以不只一个。适用于大样本,较粗糙。本,较粗糙。48频数分布图频数分布图(frequency graph)图3-1图 2-1 某 地 96名 妇 女 产 前 检 查 次 率 分 布051015
10、2025300123455产 前 检 查 次 数频率(%)49均数、中位数、众数三者关系均数、中位数、众数三者关系n正态分布时:均数中位数众数均数中位数众数n正偏态分布时:均数均数中位数中位数众数众数n负偏态分布时:均数均数中位数中位数众数众数5051第二节第二节 离散趋势的描述离散趋势的描述n反映数据的离散度(反映数据的离散度(Dispersion)。即个)。即个体观察值的变异程度。常用的指标有:体观察值的变异程度。常用的指标有:n 极差极差(Range)(全距全距)n四分位数间距四分位数间距 Quartile range QRn方差方差 Variancen标准差标准差Standard De
11、viationn变异系数变异系数 Coefficient of Variation52三组同龄男孩的身高值三组同龄男孩的身高值(cm)甲组:90 95 100 105 110 100cmX甲 乙组:96 98 100 102 104 100cmX乙 丙组:96 99 100 101 104 100cmX丙 53一、极差一、极差极差,用极差,用R表示:即一组变量值最大值与表示:即一组变量值最大值与最小值之差。最小值之差。1109020cmR甲104968cmR 乙104968cmR丙甲组:90 95 100 105 110 100cmX甲 乙组:96 98 100 102 104 100cmX乙
12、 丙组:96 99 100 101 104 100cmX丙 54n优点:简便优点:简便n缺点:缺点:n只利用了两个极端值,极差不能反映所有数只利用了两个极端值,极差不能反映所有数据的变异大小。据的变异大小。n受样本含量的影响较大,受样本含量的影响较大,n大,大,R也会大。也会大。n极差的抽样误差较大,其稳定性较差。极差的抽样误差较大,其稳定性较差。n适用适用n常应用资料的粗略分析和小样本数据。常应用资料的粗略分析和小样本数据。55二、四分位数间距二、四分位数间距 n四分位数间距,用四分位数间距,用Q表示:表示:nQ=n下四分位数:下四分位数:n上四分位数:上四分位数:2575PP 25LQP7
13、5UQP56n四分位数间距包括了全部观察值中居于四分位数间距包括了全部观察值中居于中间水平的一半,所以可看成中间一半中间水平的一半,所以可看成中间一半观察值的极差,比极差稳定。观察值的极差,比极差稳定。Q越大,越大,说明变异度越大。说明变异度越大。n它一般和中位数一起描述偏态分布资料它一般和中位数一起描述偏态分布资料的平均水平和变异程度。的平均水平和变异程度。n应用计算医学参考值范围。应用计算医学参考值范围。57 n已知已知P25=39.2,P75=67.7,计算,计算118名链球名链球菌咽喉炎患者潜伏期的四分位数间距。菌咽喉炎患者潜伏期的四分位数间距。nQ67.7-39.228.5(天)(天
14、)58三、方差与标准差三、方差与标准差n 1、方差(方差(variance)也称均方差()也称均方差(mean square deviation),反映一组数据的平均离散),反映一组数据的平均离散水平。水平。NXXlSSXxx222)-()-()square of sum(0)-(总体方差离均差平方和离均差和11)(2222nnXXnXXS样本方差59n2、n公式:公式:n在实际工作中很难得到总体均数和总例数在实际工作中很难得到总体均数和总例数n样本标准差用样本标准差用 表示表示 n公式:公式:总体标准差用表示 2()XNS2()1XXSn60 n标准差的公式还可以写成标准差的公式还可以写成:
15、n利用频数表计算标准差的公式为利用频数表计算标准差的公式为22()1XXnSn22()1fXfXfSf61样本方差为什么要除以(样本方差为什么要除以(n1)n与自由度(与自由度(degrees of freedom,dfdegrees of freedom,df)有关。)有关。n自由度是数学名词,在统计学中,自由度是数学名词,在统计学中,n n个数据如不受个数据如不受任何条件的限制,则任何条件的限制,则n n个数据可取任意值,称为有个数据可取任意值,称为有n n个自由度。计算标准差时,个自由度。计算标准差时,n n个变量值本身有个变量值本身有n n个自由度。在样本均数的一定的情况下,只有(个自
16、由度。在样本均数的一定的情况下,只有(n n1 1)个观察单位可以任意取值,因此只有()个观察单位可以任意取值,因此只有(n n1 1)个自由度。个自由度。11)(2222nnXXnXXS样本方差62计算三组资料的标准差。计算三组资料的标准差。n甲组:甲组:5,9095 100 105 110500nX222222909510010511050250X2(500)5025057.91(cm)5 1S同理得:乙组:3.16(cm)S,丙组:2.92(cm)S。63 例 2-13 计算表2 1中101名正常成年女子的血清总胆固醇(mmol/L)的标准差。组组 段段(1)频数频数(f)(2)组中值组
17、中值(X)(3)fx(4)fx2(5)2.3012.452.45 6.00 2.6032.758.25 22.69 2.9063.0518.30 55.82 3.2083.3526.80 89.78 3.50173.6562.05 226.48 3.80203.9579.00 312.05 4.10174.2572.25 307.06 4.40124.5554.60 248.43 4.7094.8543.65 211.70 5.0055.1525.75 132.61 5.3025.4510.90 59.41 5.605.90 15.755.75 33.06 合 计101409.75 1705.
展开阅读全文