医科大学精品课件:统计描述(研).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医科大学精品课件:统计描述(研).ppt》由用户(金钥匙文档)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医科大学 精品 课件 统计 描述
- 资源描述:
-
1、2 统计描述 statictical description,统计描述:,从资料中获取信息最基本的方法,把握资料基本的特征 为统计分析打下基础,2.1 定量资料的统计描述,例3.1 某市 100名8岁男童的身高资料(cm),(1)定量资料的频数表和频数图,频数分布表(frequency distribution table): 将各数值变量的值及其相应的频数列表,简称频数表。频率是表示频数出现机率的指标,可用百分数或小数表示,频率的和为100%或1。 .,频数表作用: 简化数据,方便阅读,显示数据的分布规律, 求全距(Range,简记R ):是一组资料中 最大值(Xmax)与最小值(Xmin)
2、之差,亦称极差。,全距( R)= Xmax - Xmin =143.3 116.2 = 27.1(cm),2. 定组距:将全距分为若干段,称为组段。 组与组之间的距离,称为组距;用小写i 表示。,原则:(1)“组段”数一般为10-15个; (2)“组距”一般为R/10取整; (3)为计算方便根据组距采取取整数方法,本例题: 组距(i)=全距/ 预分组段= 27.1 /10=2.713(cm),3.写组段:即将全距分为若干段的过程。,原则:(1)第一组段要包括Xmin,最末组段包括 Xmax ; (2)每组段均用下限值加 “ ”表示,最终组段同时注明上下限。,注意:各组段不能重叠,每一组段均为半
3、开半闭区间。,4. 列表划记:根据预定的组段和组距,用划记的方法整理原始资料。,表3.2 某市100名8岁男童身高(cm)频数表,频数分布图(frequency distribution figure) : 根据频数分布表,以变量值为横坐标,频数为纵坐标,绘制的直方图。,图3.1 某市100名8岁男童身高(cm)的频数分布,频数,身高(cm),(三)频数表的用途:,1.揭示频数的分布特征,图3.1 某市100名8岁男童身高(cm)的频数分布,离散趋势 (tendency of dispersion),集中趋势与离散趋势结合能全面反映频数的分布特征,集中趋势 (central tendency)
4、,2.揭示频数的分布类型,频数 分布,非对称 分布,正偏,集中部位在中部,两端渐少,左右两侧的基本对称,为对称(正态)分布。,对称 分布,集中部位偏于较小值一侧(左侧),较大值方向渐减少,为正偏态分布。,集中部位偏于较大值一侧(右侧),较小值方向渐减少,为负偏态分布。,(2) 定量资料的描述指标,描述指标:,算术均数(Arithmetric mean, ) 几何均数(Range, R) 中位数(Range, R) 调和均数(Range, R) 众数(Range, R) ,离散趋势:,集中趋势:,极差(Range, R) 四分位数间距(Quartile, Q) 方差(Variance, ) 标准
5、差(Standard deviation,) 变异系数(Coefficient of variation,CV),2. 针对分布类型先用合适的指标描述:,1. 首先对资料作分布类型的判定;,中位数、四分位间距; 常录为M(Ql, Qu),均值、标准差;常记录为,算术均数 几何均数 中位数,一、集中趋势:用于描述一组计量资料的集中位置,说明这种变量值大小的平均水平(average)表示。,注意:1.同质的事物或现象才能求平均数,平均 水平,.应根据资料分布状态选用适当的均数。,1. 算术平均数 arithmetic mean, 简称:均数(mean) 使用条件:数据分布比较均匀呈正态或近似正态分
6、布,且观察值之间差异不大的定量资料。 样本均数用符号: 表示 总体均数用符号:表示 计算方法有两种:直接法(小样本)和加权法(大样本),对称分布,负偏态分布,集中:中位数; 离散:四分位间距,引子:非对称分布,“中位数”的概念,2. 中位数 (Median,M), 概念:将原始观察值从小到大排序后,位次居中的那个数叫中位数,用M表示。 使用条件:适用于任何分布的定量资料,特别是偏态分布、末端分布有特大特小值或无法确定、甚至分布不清的资料。 表示符号:M 计算方法:直接法和加权法,众数 中位数 算术均数,P50 = M,0 50 100,小,大,P0 P50 P100,中位数,定义:一个数值,它
7、将原始观察值分成两部分,理论上有x%的值小于Px,另有1- x%的观察值大于Px,故它是一个位置指标。,百分位数(Percentile,Px),说明集中趋势是数据分布的一个重要特征,但单有集中趋势指标还不能很好地描述数据的分布规律。而且还要看数据的变异程度 。,观察值的离散趋势,离散程度大说明均数代表性差 离散程度小说明均数代表性好,举 例:,有三组数据,A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34,集中,离散趋势:用于描述一组数值变量观察值之间参差不齐的程度,即变异程度。,包括,极差(Range, R) 四分位数间距(Quarti
8、le, Q) 方差(Variance, ) 标准差(Standard deviation,S2) 变异系数(Coefficient of variation,CV),1. 全距(Range, 简称R), 计算:R=最大值最小值= Xmax - Xmin 意义:反映观察值的全范围。 条件:对各种分布类型资料都适用。 优点:计算简单,方便使用。 缺点:只利用最大值和最小值的信息,不能反映其它观察值的变异情况。 建议:与其他离散指标共同使用。,2.样本例数越多,抽到极大值和极小值的可能性越大,故样本例数悬殊时不易比较极差。,极差的缺点:,1.R只考虑最大值和最小值之差,不能反映组内其它观察值的变异度
9、。,3.即使样本例数不变,极差的抽样误差亦较大,即不够稳定。,全距和四分位数间距:,小,大,0 25 50 75 100,P1 P25 P50 P75 P100,QL,QU,下四分位数 上四分位数,QU QL= 四分位数间距,2. 四分位数间距(uartile, 简称),计算:=-=P75-P25 意义:中间一半观察值的极差。 条件:对各种分布类型的资料都适用,但常用于 偏峰分布资料。 优点:类似值但比其稳定。 缺点:仍未考虑资料中每个观察值的变异度。 建议:与其他离散指标共同使用。,3-4.方差、标准差:全面考虑每个变量值的离散情况,离均差平方和: (X-)2,离均差: X-,离均差平方:
10、(X-)2,方差,标准差,比较标准:均数,方差: 分总体方差 ,样本方差 S2,计算: 意义:克服了值和Q 值的不足,考虑了每个变量值的离散情况并消除了的影响。 优点:全面地考虑每个变量值的离散情况 缺点:其单位是原度量单位的平方。,总体方差,样本方差,n-1 就是众所周知以后非常熟悉而经常用到的 自由度( degree of freedom )。 用希腊字母表示: nju:表示 表示随机变量能够自由取值的个数。 nju:与 mju: 区别?,标准差(Standard deviation,SD或S),方差的单位是原度量单位的平方,不便使用。,将方差公式展开,并开方,即得到另一个重要的离散趋势的
11、指标,即标准差,简写为S。,总体标准差:,样本标准差:,举例 分别求A、B、C三组数据的标准差: A组:26,28,30,32,34 B组:24,27,30,33,36 C组:26,29,30,31,34,2. 针对分布类型先用合适的指标描述:,1. 首先对资料作分布类型的判定;,中位数、四分位间距; 常录为M(Ql, Qu),均值、标准差;常记录为,定量资料其它常用的描述指标:,算术均数(Arithmetric mean, ) 几何均数(Range, R) 中位数(Range, R) 调和均数(Range, R) 众数(Range, R) ,离散趋势:,集中趋势:,极差(Range, R)
12、四分位数间距(Quartile, Q) 方差(Variance, ) 标准差(Standard deviation,) 变异系数(Coefficient of variation,CV),引子:设有5份血清样品,滴度分别为: 1:1,1:10,1:100,1:1000,1:10000 求其平均滴度。,几何均数,1.几何均数 geometric mean, G, 概念:对一组观察值,先进行对数变换,按算术均数计算方法求其对数值的均数,该均数的反对数值即几何均数(G)。 使用条件:用于原始数据分布呈偏态分布,等比资料(倍数变化)或对数正态分布资料的平均数的计算。 表示符号:G 计算方法:直接法和加
13、权法,正偏态分布,举例:设有5份血清样品,滴度分别为: 1:1, 1:10, 1:100, 1:1000, 1:10000 求其平均滴度。,答:,G,或 Glg-1(lg1+lg10+lg100+lg1000+lg10000)/5) lg-1(0+1+2+3+4)/5) lg-12 =100,即:平均滴度为1:100;较好地代表了观察值的平均水平。,计算几何均数(G )注意事项: 1. 观察值不能为 0; 2. 观察值不能同时有正有负; 3. 同一组资料求得的几何均数小于算术均数。,2.变异系数(coefficient of variation , CV),意义:极差、标准差和四分位数间距都有
14、单位的, 而变异系数是相对数,没有单位,用标准差与均数之比,用百分数表示。 公式:,条件: 比较单位不同的多组资料的变异度 比较均数相差悬殊的多组资料变异,举例1:某地7岁男孩身高的均数为123.10cm,标准差4.71 cm;体重均数为22.29kg,标准差2.26kg。试比较其身高、体重的变异程度。,说明其体重的变异度大于身高的,即身高比体重稳定。,举例2:试分析下组资料变异程度的变化趋势,附表 某地不同年龄儿童身高(cm)的变异度,2. 2 定性资料的统计描述指标,【举例】 某年甲乙两地发生麻疹流行,甲地发病人数为300人,乙地发病人数为250人,甲地发病人数比乙地多50人,能否据此认为
15、甲地麻疹发病比乙地严重呢? .,1. 绝对数: 2. 相对数(Relative number) :是两个具有内在联系的指标之比。,包括,分类资料的描述:频率 ( Frequency or Proportion) 人时资料的描述:强度 ( Intensity ) 复合指标:相对比 ( Relative ratio ),2. 针对分布类型先用合适的指标描述:,1. 首先对资料作分布类型的判定;,中位数、四分位间距; 常录为M(Ql, Qu),均值、标准差;常记录为,2.2.1 分类资料的描述-频率和频率分布,定性资料,频率分布表/图,分布特征,二分类资料的描述-频率: 如死亡的频率、阳性频率、患病
展开阅读全文