第四章数据特征与统计描述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第四章数据特征与统计描述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第四 数据 特征 统计 描述 课件
- 资源描述:
-
1、s第一节第一节 频数分布表与频数分布图频数分布表与频数分布图s第二节第二节 计量资料的常用统计指标计量资料的常用统计指标s第三节第三节 计数资料的计数资料的常用统计指标常用统计指标s第四节第四节 统计图表统计图表第一节第一节 频数分布表与频数分布图频数分布表与频数分布图 一、频数分布表一、频数分布表(frequency table)用途:用途:用于描述资料的分布特征用于描述资料的分布特征频数:在一批样本中,相同情形出现的次数称为频数:在一批样本中,相同情形出现的次数称为该情形的频数。该情形的频数。资料类型资料类型组段组段频数频数计数和等级计数和等级观察结果的所有观察结果的所有分类分类相同类别出
2、现的相同类别出现的次数次数计量计量根据观察结果重根据观察结果重新划分新划分分组统计分组统计P44 表4-1,4-2,4-3表表4-3 某地某地150名正常成年男子红名正常成年男子红细胞数(细胞数(1012/L)编号编号红细胞数红细胞数编号编号红细胞数红细胞数1 13.983.982 24.544.541431434.674.673 34.744.741441445.405.404 45.135.131451455.295.295 54.434.431461464.774.776 64.814.811471475.385.387 74.984.981481485.155.158 83.793.7
3、91491494.644.641501505.195.191.频数表的编制步骤频数表的编制步骤(1)求)求极差极差(range):即最大值与最小值之差):即最大值与最小值之差,又称为全距。,又称为全距。本例极差:本例极差:R=5.883.79=2.09 (1012/L)(2)决定决定组数组数、组段组段和和组距组距:根据研究目的和:根据研究目的和样本含量样本含量n确定。组距确定。组距=极差极差/组数,通常分组数,通常分8-15个组,为方便计,组距参考极差的十分之一个组,为方便计,组距参考极差的十分之一,再再略加调整。略加调整。本例本例i=R/10=2.09/10=0.2090.2。(3)列出组段
4、:第一组段的列出组段:第一组段的下限略下限略小于最小值小于最小值,最后一个组段,最后一个组段上限必须上限必须包含最大值包含最大值,其它组段上限值忽略。,其它组段上限值忽略。(4)划记计数划记计数:用划记法将所有数:用划记法将所有数据归纳到各组段,得到各组段的频数据归纳到各组段,得到各组段的频数。组段组段 (1)频数,频数,f(2)组中值,组中值,X(3)fX(4)=(2)(3)3.713.83.83.944.016.04.1114.246.24.3174.474.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.
5、545.622.45.75.9 合计合计15.85.8150719.8三、频数分布图P47二、频数表和频数分布图用途 1描述频数分布的类型*(1)对称分布:若各组段频数的分布以频数最多的组段为中心左右两侧大体对称(总体则完全对称),就认为该资料是对称分布(图4-2)(2)偏态分布:右偏态分布(正偏态分布):频数最多组段右侧的组段数多于左侧的组段数,高峰向左偏移,频数向右侧拖尾。转氨酶含量 人 数 12 2 15 9 18 14 21 23 24 19 27 14 30 11 33 9 36 7 39 4 4245 3 表4-115名正常成年女子血清转氨酶(mmol/L)含量分布左偏态分布(负偏
6、态分布):左侧的组段数多于右侧的组段数,频数向左侧拖尾。肌红蛋白含量 人 数 0 2 5 3 10 7 15 9 20 10 25 22 30 23 35 14 40 9 4550 2 表4-101名正常人的血清肌红蛋白()含量分布g/mL 血 清 肌 红 蛋 白(g/m L)05101520252.512.522.532.542.552.5图 2-3 101 名 正 常 人 血 清 肌 红 蛋 白 的 频 数 分 布人 数2.描述计量资料分布的描述计量资料分布的 集中趋势和离散趋势集中趋势和离散趋势集中趋势集中趋势(central tendency):变量值集中变量值集中位置。本例在组段位置
7、。本例在组段“4.7”。平均水平指标平均水平指标离散趋势离散趋势(tendency of dispersion):变量变量值围绕集中位置的分布情况。离值围绕集中位置的分布情况。离“中心中心”位位置越远,频数越小;且围绕置越远,频数越小;且围绕“中心中心”左右对左右对称。称。变异水平指标变异水平指标 3便于发现一些特大或特小的可疑值*组 段 频数 f(1)(2)2.30 1 2.60 0 2.90 0 3.20 0 3.50 17 3.80 20 4.10 17 4.40 12 4.70 9 5.00 0 5.30 0 5.605.90 8 合 计 101 4便于进一步做统计分析和处理第二节第二
8、节 计量资料的常用统计指标计量资料的常用统计指标s描述集中趋势的特征数描述集中趋势的特征数s描述离散趋势的特征数描述离散趋势的特征数计量资料(定量资料、数值变量资料)计量资料(定量资料、数值变量资料)总体:总体:有限或无限个(定量)变量值 样本:样本:从总体随机抽取的n个变量值:X1,X2,X3,Xn n为样本例数(样本大小、样本含量)一、一、描述集中趋势的特征数描述集中趋势的特征数(平均指标平均指标)总称为总称为平均数平均数(average)反映了资料的集)反映了资料的集中趋势(中趋势(central tendency)。常用的)。常用的有:有:1.算术均数算术均数(arithmetic m
9、ean),简称,简称均数均数(mean)2.几何均数几何均数(geometric mean)3.中位数中位数(median)1.1.均数(均数(meanmean)nXnXXXXn21112233123kkikif Xf Xf Xf XfXXfffff为求和符号,读成sigma,k,X,f 意义例4-2“权数”例4-3X符号:总体 样本适用条件:资料呈对称分布,尤其是正态或近似正态。计算:(1)直接法(2)频数表法p49,例,例4-3:均数:均数719.8/1504.82.2.几何均数(几何均数(geometric meangeometric mean)nXXnXXXXnXXXXXGnGnnGl
10、glglg)lglg(lg1lg12121为正值,为底的反对数表示以为底的对数;表示以010lg10lg1X几何均数几何均数:变量变量对数值的对数值的算术均算术均数数的反对数的反对数。几何均数的适用条件与实例几何均数的适用条件与实例适用条件适用条件:呈倍数关系的等比资料或对数正态分:呈倍数关系的等比资料或对数正态分布(正偏态)资料;如抗体滴度资料布(正偏态)资料;如抗体滴度资料 例例 血清的抗体效价滴度的倒数倒数分别为:10、100、1000、10000、100000,求几何均数。1000510lg10lg10lg10lg10lglg543211G此例的算术均数为此例的算术均数为22222,显
11、然不能代表滴度的,显然不能代表滴度的平均水平。同一资料,平均水平。同一资料,几何均数几何均数中位数中位数负偏态分布时:均数均数中位数中位数小结:集中趋势的描述平均数 平均数:描述一组变量值的集中位置或平均水平的指标体系。不同的分布使用不同的指标 (算术)均数:正态或近似正态或观察值相差不大的小样本资料 几何均数:对数正态分布或等比级数资料 中位数:一般偏态分布(传染病发病的潜伏期)二、二、描述离散趋势的特征数描述离散趋势的特征数(变异(变异(variationvariation)指标)指标)反映数据的离散度(反映数据的离散度(Dispersion)。即)。即个体观察值的变异程度。常用的指标有:
12、个体观察值的变异程度。常用的指标有:1.极差极差(Range)(全距全距)2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and Quartile range 3.方差方差 Variance 4.标准差标准差Standard Deviation 5.变异系数变异系数 Coefficient of Variation 盘编号盘编号 甲甲乙乙丙丙1 14404804902 24604904953 35005005004 45405105055 5560520510合计合计250025002500250025002500均数均数500500500500500500 例:设甲、
13、乙、丙三人,采每人的耳垂血,然后红细例:设甲、乙、丙三人,采每人的耳垂血,然后红细胞计数,每人数胞计数,每人数5个计数盘,得结果如下(万个计数盘,得结果如下(万/mm3)甲乙丙1.1.极差极差(Range(Range)(全距全距)minmaxXXR 1204020符号:R意义:反映全部变量值的变动范围。优点:简便,如说明传染病、食物中毒的最长、最短潜伏期等。缺点:1.只利用了两个 极端值 2.n大,R也会大 3.不稳定适用范围:任何计量资料;是参考变异指标2.2.百分位数与四分位数间距百分位数与四分位数间距 Percentile and quartile rangePercentile and
14、 quartile range百分位数百分位数:数据从:数据从小到大小到大 排列排列;在百分在百分尺度下,所占百分比尺度下,所占百分比对应的值。记为对应的值。记为Px。四分位间距四分位间距:(定义定义:P53)QP75 P25 四分位半间距四分位半间距quartile deviation:QDQR/2P100(max)P75P50(中位数中位数)P25P0(min)Px频数表资料的百分位数频数表资料的百分位数mLxxffxniLPxnP)%()%(值间的频数所在组段下限值至上限至该下限值的累计频数组距所在组段下限值下限值下限值L上限值上限值Ui;fm百分位数百分位数Px)%(LfxnP256+
15、6x(145x25%17)/468.51(h)P7518+6x(145x75%101)/3219.45(h)Q19.45-8.5110.94(h)潜伏期潜伏期/h (1)频数,频数,f(2)累计频数累计频数 f(3)0171764663123810118321332461393001393641434248 合计合计2145145百分位数的应用百分位数的应用确定医学确定医学参考值范围参考值范围(reference range):):如如95参考值范围参考值范围P97.5P2.5;表示有表示有95正常正常个体个体的测量值在此范围。的测量值在此范围。中位数中位数Md与与四分位半间距四分位半间距QD
16、一起使用,描一起使用,描述偏态分布资料的特征述偏态分布资料的特征3.3.方差方差 方差方差(variance)也称)也称均方差均方差(mean square deviation),样本观察值的离均差平方),样本观察值的离均差平方和的均值。表示一组数据的平均离散情况。和的均值。表示一组数据的平均离散情况。NXXlSSXxx222)-()-()square of sum(0)-(总体方差离均差平方和离均差和11)(2222nnXXnXXS样本方差样本方差为什么要除以(样本方差为什么要除以(n n1 1)22()XN 总体方差数理统计证明,n代替N后,计算出的样本方差对总体方差的估计偏小。对于样本资
17、料,对离均差平方和取平均时分母用n-1代替n。2222()11XXnXXSnn 样本方差4.4.标准差标准差222()11XXnXXSnn样本标准差 标准差标准差(standard deviation)即方差的正平)即方差的正平方根;其单位与原变量方根;其单位与原变量X的单位相同。的单位相同。(p54)122fffXfXS频数表样本标准差2()XXN总体标准差标准差的计算标准差的计算盘编号盘编号 甲甲乙乙丙丙甲甲2 2乙乙2 2丙丙2 21 14404804901936002304002401002 24604904952116002401002450253 35005005002500002
18、500002500004 45405105052916002601002550255 5560520510313600270400260100合计合计25002500 25002500 25002500 1260400 1251000 1250250标准差标准差50.9915.817.9199.50155/250012604001222甲的标准差nnXXS方差(3476.48719.82/150)/(150-1)0.1503标准差0.39(1012/L)(例例4-12)4-12)组段组段 (1)频数,频数,f(2)组中值,组中值,X(3)fX(4)=(2)(3)3.713.83.83.944.
19、016.04.1114.246.24.3174.474.84.5264.6119.64.7324.8153.64.9265.0130.05.1185.293.65.3105.454.05.545.622.45.75.9 合计合计15.85.8150719.85.变异系数变异系数(coefficient of variation)%100XSCV符号符号:CV适用条件适用条件:观察指标单位不同,如身高、体重:观察指标单位不同,如身高、体重 同单位资料,但均数相差悬殊同单位资料,但均数相差悬殊均数均数 标准差标准差变异系数变异系数青年男子青年男子 身高身高170 cm6 cm3.5体重体重60 k
20、g7 kg11.7 意义:意义:挑选指标时变异系数越小,指标越好。P56 例4-13变异指标小结变异指标小结1极差较粗,适合于任何分布极差较粗,适合于任何分布2标准差标准差与均数的单位相同,最常用,适合于近似正态分布与均数的单位相同,最常用,适合于近似正态分布3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征,常配套使用常配套使用 如如 正态分布正态分布:均数、标准差;:均数、标准差;偏态分布偏态分布:中位数、四分位半间距:中位数、四分位半间距第三节第三节 计数资料的计数资料
21、的常用统计指标常用统计指标一、计数资料的数据整理一、计数资料的数据整理二、二、常用相对数指标常用相对数指标三、三、应用注意事项应用注意事项 计数资料(分类资料):计数资料(分类资料):总体:总体:有限或无限个定性(分类)变量值有限或无限个定性(分类)变量值样本:样本:从总体中抽取的从总体中抽取的n n个定性(分类)变量值个定性(分类)变量值整理为:整理为:分类个体数,即:计数资料频数表分类个体数,即:计数资料频数表 绝对数绝对数一、计数资料的数据整理一、计数资料的数据整理 计数资料:计数资料:按某种属性分类,然后清点每类按某种属性分类,然后清点每类的数据(以下是:孕妇分娩资料)的数据(以下是:
22、孕妇分娩资料)住院号住院号年龄年龄职业职业文化程度文化程度分娩方式分娩方式妊娠结局妊娠结局202565527无无中学中学顺产顺产足月足月202565322无无小学小学助产助产足月足月202583025管理人员管理人员大学大学顺产顺产足月足月202567724知识分子知识分子中学中学顺产顺产早产早产202564730管理人员管理人员大学大学顺产顺产足月足月202584832无无小学小学剖宫产剖宫产足月足月201991527无无中学中学顺产顺产死产死产202586129无无大学大学剖宫产剖宫产足月足月202460125农民农民中学中学顺产顺产足月足月200038626无无小学小学顺产顺产足月足月按
23、年龄(按年龄(2岁一组)与职业整理岁一组)与职业整理年龄年龄工人工人管理人员管理人员农民农民商业服务商业服务无无知识分子知识分子总计总计1818 2 2 0 0 0 0 0 0 3 3 0 0 5 52020 9 9 2 2 6 61010 18 18 0 0 45 4522222828 7 710102424 70 70111115015024245050343428285252153153444436136126265050434325254545133133707036636628283434353510103434 78 78575724824830301111141411112222
24、 39 39171711411432321414 2 2 3 31414 24 24 3 3 60 603434 4 4 2 2 5 5 3 3 12 12 2 2 28 283636 2 2 1 1 1 1 4 4 5 5 1 1 14 143838 3 3 1 1 1 1 0 0 2 2 1 1 8 84040 0 0 0 0 2 2 0 0 0 0 0 0 2 2合计合计 207 207 141 14110210220820853753720620614011401二、常用相对数二、常用相对数v 绝对数:通过调查或实验得到的原始数据。如某病的出院人数、治绝对数:通过调查或实验得到的原始数
25、据。如某病的出院人数、治愈人数、死亡人数等。愈人数、死亡人数等。但绝对数通常不具有可比性:但绝对数通常不具有可比性:1.如如2005级临床五年制一、二大班学生人数不同时,比较两班医学统级临床五年制一、二大班学生人数不同时,比较两班医学统计学的及格人数没有意义计学的及格人数没有意义,因此需要在绝对数的基础上计算相对数。因此需要在绝对数的基础上计算相对数。v 相对数:两个有联系的指标之比相对数:两个有联系的指标之比,常用的相对数有:常用的相对数有:一、比一、比 二、比率二、比率 三、速率三、速率v相对比简称比,是两个有关指标之比,说明相对比简称比,是两个有关指标之比,说明两指标间的比例关系。两指标
展开阅读全文