分类变量资料的统计分析培训课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《分类变量资料的统计分析培训课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 变量 资料 统计分析 培训 课件
- 资源描述:
-
1、第十章第十章精1主要内容主要内容分类变量资料的统计描述分类变量资料的统计描述分类变量资料的统计推断分类变量资料的统计推断卡方检验卡方检验精2什么是分类变量资料?什么是分类变量资料?用什么指标进行描述?用什么指标进行描述?甲、乙两地发生麻疹流行,甲地患儿100人,乙地患儿50人,何地较为严重?若甲地易感儿童667人,而乙地易感儿童250人。甲地麻疹发病率为 100/667100%=15%乙地麻疹发病率为 50/250100%=20%精3第一节第一节 分类变量资料的统计描述分类变量资料的统计描述 常用相对数常用相对数 应用相对数时的注意事项应用相对数时的注意事项 率的标准化法率的标准化法精4相对数
2、相对数 相对数相对数:是两个有关联的数值或指标之比。:是两个有关联的数值或指标之比。 常用的相对数有:常用的相对数有:率率构成比构成比相对比相对比精5率率(rate)率:率:是指在一定观察时间内,某现象实际发生数与是指在一定观察时间内,某现象实际发生数与可能发生该现象的总数之比,用以说明某现象发生可能发生该现象的总数之比,用以说明某现象发生的频率或强度。的频率或强度。K K为比例基数,如为比例基数,如100%100%、10001000等。比例基数的选择主要依等。比例基数的选择主要依习惯而定或使计算结果能保留习惯而定或使计算结果能保留1 12 2位整数。位整数。 K单位总数可能发生该现象的观察单
3、位数实际发生某现象的观察率精6构成比构成比(constituent ratio) 构成比:构成比:是指事物内部某一部分的观察单位数与事是指事物内部某一部分的观察单位数与事物内部各组成部分的观察单位数总和之比,用以说物内部各组成部分的观察单位数总和之比,用以说明事物内部各部分所占的比重或分布。明事物内部各部分所占的比重或分布。100事物内部某一部分的观察单位数构成比事物内部各部分的观察单位数总和常用百分数表示,故又称百分比。常用百分数表示,故又称百分比。精7各部分构成比之和为各部分构成比之和为100%。此消彼长。此消彼长。构成比的两个特点:构成比的两个特点:精8例例10-1 2001年对某地中小
4、学学生进行年对某地中小学学生进行HbsAg检查,检查,结果见表结果见表10-1,试计算各级学生,试计算各级学生HbsAg检出率及阳检出率及阳性者构成比性者构成比 率和构成比不是同一指标,在应用时应注意加以区分。率和构成比不是同一指标,在应用时应注意加以区分。 精9相对比相对比相对比:相对比:指两个有关指标之比,说明两个指标的比指两个有关指标之比,说明两个指标的比例关系。例关系。甲指标相对比(或 100)乙指标两个指标可以是绝对数、相对数、平均数,可以是性质相两个指标可以是绝对数、相对数、平均数,可以是性质相同或性质不同,但两个指标互不包含。同或性质不同,但两个指标互不包含。 精10例例10-2
5、 某地某地2003-2005年不同性别新生儿数见表年不同性别新生儿数见表10-2,试计算该地不同年份新生儿性别比。,试计算该地不同年份新生儿性别比。 精11应用相对数的注意事项应用相对数的注意事项 计算相对数时分母不宜过小计算相对数时分母不宜过小 正确区分构成比和率,不能以构成比代替率正确区分构成比和率,不能以构成比代替率 正确计算平均率正确计算平均率 对率和构成比进行比较时,对率和构成比进行比较时,应注意资料的可比性应注意资料的可比性 率的标准化率的标准化 样本率或构成比进行比较时要作假设检验样本率或构成比进行比较时要作假设检验 精12率的标准化率的标准化精13 在进行两个内部构成不同的总率
6、比较时,采在进行两个内部构成不同的总率比较时,采用统一的标准进行校正,然后计算校正后的标准用统一的标准进行校正,然后计算校正后的标准化率,再进行比较的方法称为率的标准化法。化率,再进行比较的方法称为率的标准化法。率的标准化法率的标准化法精14计算标准化率时,首先要选定一个比较的计算标准化率时,首先要选定一个比较的“标准标准”。如,对年龄构成进行标化时,可选用全国、全省等大范围人如,对年龄构成进行标化时,可选用全国、全省等大范围人口构成资料作标准,也可将比较组的合并人口或以其中任一口构成资料作标准,也可将比较组的合并人口或以其中任一组的人口构成作标准。组的人口构成作标准。原则上,选定的标准人口应
7、有代表性、较稳定,容易获得,原则上,选定的标准人口应有代表性、较稳定,容易获得,便于比较。便于比较。根据获得的资料和选定的标准不同,标准化法可分为直接法根据获得的资料和选定的标准不同,标准化法可分为直接法和和间接法间接法。精15直接法直接法适用情况适用情况:已知被标化组各年龄组的实际率:已知被标化组各年龄组的实际率P Pi i,用标准人口数或标准人口构成进行计算。用标准人口数或标准人口构成进行计算。iiiiipCpNpNp或其中其中 为第为第i 组标准人口数,组标准人口数, 为标准组总人数,为标准组总人数, 为第为第i 组的实际率,组的实际率, 为第组标准人口构成。为第组标准人口构成。 iNi
8、piCiN精16甲社区标准化后的患病率甲社区标准化后的患病率 乙社区标准化后的患病率乙社区标准化后的患病率表表 10-4 甲、乙两社区 20 岁以上居民高血压标准化患病率(直接法) 甲社区 乙社区 年龄组 标准 人口 iN 实际患病率(%) 1 ip 预期 患病数 1iipN 实际患病率(%) 2ip 预期 患病数 2iipN 20- 1539 10.86 167 11.76 181 35- 1665 21.48 358 22.88 381 50- 1584 34.69 549 36.96 585 65- 1675 53.44 895 56.01 938 合计 6463 (N) 1969 (1
9、iipN) 2085 (2iipN) %47.30%10064631969p%26.32%10064632085p精17如根据选定的标准人口构成做标准,如根据选定的标准人口构成做标准, 精18间接法间接法适用情况:适用情况:已知被标化组的死亡总数及年龄别人已知被标化组的死亡总数及年龄别人口数,但不知道各年龄组的实际死亡率。口数,但不知道各年龄组的实际死亡率。iiPNrPP标准化死亡比标准化死亡比精19标准化死亡比:标准化死亡比:被标化组实际死亡数与预期死亡被标化组实际死亡数与预期死亡数之比,称为标准化死亡比(数之比,称为标准化死亡比(standard mortality ratio),简称为)
10、,简称为SMR。若。若SMR1,表示被标化人,表示被标化人群的死亡率高于标准组;反之,若群的死亡率高于标准组;反之,若SMR1,表示被,表示被标化人群的死亡率低于标准组。标化人群的死亡率低于标准组。 iiPnrSMR/精20例例10-410-4 某地观察了吸烟者与不吸烟者各年龄组人数如表某地观察了吸烟者与不吸烟者各年龄组人数如表10-610-6,同时观察期内吸烟者中有,同时观察期内吸烟者中有432432人死于肺癌,不吸烟者人死于肺癌,不吸烟者中有中有210210人死于肺癌,试计算吸烟者与不吸烟者的标准化死人死于肺癌,试计算吸烟者与不吸烟者的标准化死亡率。亡率。 精21吸烟者的肺癌标准化死亡比吸
11、烟者的肺癌标准化死亡比 2912467100432.SMR非吸烟者的肺癌标准化死亡比非吸烟者的肺癌标准化死亡比 2100.8620243.67SMR 精22吸烟者的肺癌标准化死亡率吸烟者的肺癌标准化死亡率 非吸烟者的肺癌标准化死亡率非吸烟者的肺癌标准化死亡率 万万10/83.298620.010/60.342p万万10/48.1482912.410/60.341p精23率的标准化应注意的问题率的标准化应注意的问题 (1 1)当各比较组内部构成(如年龄、性别等)不同时,)当各比较组内部构成(如年龄、性别等)不同时,应对率进行标准化后,再作比较。应对率进行标准化后,再作比较。(2 2)标准化率只表
12、明各标化组率的相对水平,而不代表)标准化率只表明各标化组率的相对水平,而不代表其实际水平。其实际水平。(3 3)两总率各分组对应的率有明显交叉时,则不能用标)两总率各分组对应的率有明显交叉时,则不能用标准化率进行比较。准化率进行比较。(4 4)如为抽样研究资料,两样本标准化率的比较也应作)如为抽样研究资料,两样本标准化率的比较也应作假设检验。假设检验。 精24 率的抽样分布率的抽样分布 率的抽样误差与标准误率的抽样误差与标准误 总体率的区间估计总体率的区间估计 率比较的率比较的u u检验检验精25率的抽样分布率的抽样分布 从某个二项分类总体中随机抽取含量一定的样本,其从某个二项分类总体中随机抽
13、取含量一定的样本,其样本率的分布概率是有规律的,这种规律为服从二项样本率的分布概率是有规律的,这种规律为服从二项分布(分布(binomial distribution),即样本中阳性数或样),即样本中阳性数或样本阳性率的分布概率等于二项式展开后各项。若总体本阳性率的分布概率等于二项式展开后各项。若总体阳性率为阳性率为、样本含量为、样本含量为n,阳性数为,阳性数为X,则样本中出,则样本中出现现X个阳性事件的概率可由下式求得。个阳性事件的概率可由下式求得。 n , 2, 1, , 0 )1 ()!( !)(XXnXnXPXnX精26已知:已知: =0.5,n =10; =0.3,n =5; =0.
14、3,n =10; =0.3,n =15。试根据式(。试根据式(10-6)求各阳性数事件的概率)求各阳性数事件的概率并作概率分布图。并作概率分布图。 图图10-1 10-1 率的抽样分布图率的抽样分布图 精27率的抽样分布特征率的抽样分布特征1.为离散型分布;为离散型分布;2.2.当当 =1-=1-时,呈对称分布;时,呈对称分布;3.3.当当n n增大时,逐渐逼近正态分布。增大时,逐渐逼近正态分布。 一般认为,当一般认为,当nn和和n n(1-(1-)5)5时时, , 可近似看可近似看作正态分布。作正态分布。 精28率的抽样误差和标准误率的抽样误差和标准误 由于抽样所引起的样本率和总体率或各样本
15、率由于抽样所引起的样本率和总体率或各样本率之间存在着差异,这种差异称为率的抽样误差。之间存在着差异,这种差异称为率的抽样误差。用率的标准误表示用率的标准误表示 。npnppsp精29例例10-6 10-6 为了解某地人群结核菌素试验阳性率情况,某医为了解某地人群结核菌素试验阳性率情况,某医疗机构在该地人群中随机检测了疗机构在该地人群中随机检测了17731773人,结核菌素试验阳人,结核菌素试验阳性有性有682682人,阳性率为人,阳性率为38.47%38.47%,试计算其标准误。,试计算其标准误。%16.10116.017733847.03847.0ps精30总体率的区间估计总体率的区间估计总
16、体率的估计:总体率的估计:点估计点估计区间估计区间估计 正态近似法正态近似法 查表法查表法精31正态近似法正态近似法当样本含量当样本含量n足够大,样本率足够大,样本率p或或1-p均不太小时(如均不太小时(如np和和n(1-p)均大于均大于5),样本率的分布近似正态分布。),样本率的分布近似正态分布。 pSupu u 是标准正态分布双侧临界值,在估计总体率的是标准正态分布双侧临界值,在估计总体率的95%置信区间时,其值为置信区间时,其值为1.96;99%置信区间时,其值为置信区间时,其值为2.58。精3295%的置信区间:的置信区间: 38.47% 1.96 1.16%=36.20%40.74%
17、99%的置信区间:的置信区间: 38.47% 2.58 1.16%=35.48%41.46% 例例10-6中该地人群中结核菌素试验阳性率中该地人群中结核菌素试验阳性率95%和和99%的置信区间为:的置信区间为:精33查表法查表法 当当n较小,如较小,如n 50,特别是,特别是p接近于接近于0或或1时,按二项分时,按二项分布原理估计总体率的可信区间。布原理估计总体率的可信区间。 因其计算比较复杂,统计学家已经编制了总体率可信因其计算比较复杂,统计学家已经编制了总体率可信区间估计用表,可根据样本含量区间估计用表,可根据样本含量n和阳性数和阳性数x查阅统计查阅统计学专著中的附表学专著中的附表 。精3
18、4u u 检验检验 当样本含量当样本含量n足够大,样本率足够大,样本率p或或1-p均不均不太小时(如太小时(如np和和n(1-p)均大于均大于5),样本率的,样本率的分布近似正态分布。样本率和总体率之间、分布近似正态分布。样本率和总体率之间、两个样本率之间的比较可用两个样本率之间的比较可用u检验检验(u test) 。精35样本率与总体率的比较样本率与总体率的比较 1pppun精36例例10-7 10-7 一般情况下,直肠癌围术期并发症发生率一般情况下,直肠癌围术期并发症发生率为为30%30%,现某医院手术治疗了,现某医院手术治疗了385385例直肠癌患者,围例直肠癌患者,围术期出现并发症有术
展开阅读全文