人群健康研究的统计方法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人群健康研究的统计方法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人群 健康 研究 统计 方法 课件
- 资源描述:
-
1、一、统计学基本概念一、统计学基本概念 1.1.总体与样本总体与样本2.2.同质与变异同质与变异3.3.参数与统计量参数与统计量4.4.误差误差5.5.概率与频率概率与频率1.1.总体与样本总体与样本总体总体:根据:根据研究目的研究目的而确定而确定同质同质观察单位的全体。观察单位的全体。样本样本:从总体中抽取的部分观察:从总体中抽取的部分观察单位。单位。随机抽样随机抽样 random sampling为了保证样本的为了保证样本的可可靠性靠性和和代表性代表性,需,需要采用随机的抽样要采用随机的抽样方法(在总体中每方法(在总体中每个个体具有个个体具有相同的相同的机会机会被抽到)。被抽到)。2.同质与
2、变异同质与变异同质同质:除了实验因素外,影响被研究指标:除了实验因素外,影响被研究指标的非实验因素相同被称为同质。的非实验因素相同被称为同质。变异变异:在同质的基础上被观察个体之间的:在同质的基础上被观察个体之间的差异被称为变异。差异被称为变异。3 3、参数与统计量、参数与统计量 parameter and statisticparameter and statistic参数:参数:总体总体的统计指标,的统计指标,如总体均数、标准差,采如总体均数、标准差,采用希腊字母分别记为用希腊字母分别记为、。是是固定的常数。固定的常数。 样样本本抽取部分观察单位抽取部分观察单位 推断推断inference
3、统计量:统计量:样本样本的统计指标,如样本均数、标准差,采用拉丁的统计指标,如样本均数、标准差,采用拉丁字母分别记为字母分别记为 。 在在参数附近波动的随机变量参数附近波动的随机变量 。SX、4 4、误差(、误差(errorerror)误差:实际误差:实际观察值观察值与客观与客观真实值真实值之差之差(1 1)系统误差)系统误差(2 2)随机误差)随机误差 90mmhg。 。 。 。 。85真值真值血压计血压计测定值测定值系统误差系统误差。 。 。随机误差和系统误差随机误差和系统误差随机 误差概率:概率:随机事件发生的可能性大小,用大写随机事件发生的可能性大小,用大写的的P P 表示;取值表示;
4、取值00,11。 频率:频率:样本的实际发生率称为频率。样本的实际发生率称为频率。频率与概率间的关系:频率与概率间的关系:样本频率总是围绕概率上下波动样本频率总是围绕概率上下波动样本含量样本含量 n n 越大,波动幅度越小,频率越大,波动幅度越小,频率越接近概率。越接近概率。5 5、概率与、概率与频率频率二、数据类型二、数据类型1. 1. 计量资料计量资料用仪器、工具等测量方法获得的数据用仪器、工具等测量方法获得的数据2. 2. 计数资料计数资料按某种属性分类,然后清点每类的数据。也按某种属性分类,然后清点每类的数据。也叫定性数据叫定性数据3.3.等级资料等级资料半定性或半定量的观察结果。有大
5、小顺序,所半定性或半定量的观察结果。有大小顺序,所以也叫有序分类资料(以也叫有序分类资料(ordinal category dataordinal category data)。)。 癌症分期:早、中、晚。癌症分期:早、中、晚。 药物疗效:治愈、好转、无效、死亡。药物疗效:治愈、好转、无效、死亡。 尿蛋白:尿蛋白: , , ,+,+,+,+及以上及以上三类资料间关系三类资料间关系 例:一组例:一组20 40岁成年人的血压值岁成年人的血压值以以12kPa12kPa为界分为正常与异常两组,统计每组例数为界分为正常与异常两组,统计每组例数 8 低血压低血压 8 8 正常血压正常血压 1212 轻度高
6、血压轻度高血压 1515 中度高血压中度高血压 1717 重度高血压重度高血压计量资料计量资料等级资料等级资料计数资料计数资料实例数据实例数据一、计量资料的统计描述一、计量资料的统计描述 平均指标(算术均数、几何均数、中位数)平均指标(算术均数、几何均数、中位数) 变异指标(极差、百分位数与四分位间距、变异指标(极差、百分位数与四分位间距、方差、标准差、变异系数)方差、标准差、变异系数)1 1、平均指标、平均指标1. 1. 算术均数算术均数(mean)mean):适用条件:资料呈对称分布,适用条件:资料呈对称分布,一般用于正态或近似正态分布。一般用于正态或近似正态分布。2. 2. 几何均数几何
7、均数(geometric mean)(geometric mean)。适用条件适用条件:呈倍呈倍数关系的等比资料或对数正态分布资料。数关系的等比资料或对数正态分布资料。3.3. 中位数中位数 (median) (median)。适用条件适用条件:适合各种类型的:适合各种类型的资料。尤其适合于大样本偏态分布的资料;资料。尤其适合于大样本偏态分布的资料; 资料有不确定数值;资料分布不明等。资料有不确定数值;资料分布不明等。 2.2.变异指标变异指标 反映数据的离散程度。即个体观察值的变反映数据的离散程度。即个体观察值的变异程度。异程度。 1. 极差极差 (全距全距) 2. 四分位数间距四分位数间距
8、 3. 方差方差 Variance 4. 标准差标准差Standard Deviation 5. 变异系数变异系数 CV变异指标小结变异指标小结1 1极差较粗糙,适合于任何分布极差较粗糙,适合于任何分布2 2标准差最常用,适合于正态或近似正态分布标准差最常用,适合于正态或近似正态分布3 3变异系数主要用于单位不同或均数相差悬殊资料变异系数主要用于单位不同或均数相差悬殊资料4 4平均指标和变异指标分别反映资料的不同特征,平均指标和变异指标分别反映资料的不同特征, 常配套使用常配套使用 如如 正态分布:均数正态分布:均数标准差标准差 偏态分布:中位数偏态分布:中位数( (四分位间距四分位间距) )
9、xs图形特点:图形特点:l钟型钟型( (中间高中间高, ,两头低两头低, ,左左右对称,以右对称,以X X轴为渐进线轴为渐进线) )l最高处对应于最高处对应于X X轴的值就轴的值就是均数是均数l两个参数:位置参数和两个参数:位置参数和形态参数。形态参数。l曲线下面积恒为曲线下面积恒为1 1或或100%100%。二、正态分布二、正态分布 1.意义:医学参考值是指包括绝大多数正常人意义:医学参考值是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生理及生化指的人体形态、机能和代谢产物等各种生理及生化指标常数,也称正常值。标常数,也称正常值。 由于存在个体差异,生物医学数据并非常数而由于存在个体
10、差异,生物医学数据并非常数而是在一定范围内波动,故采用是在一定范围内波动,故采用医学参考值范围医学参考值范围(medical reference range)作为判定正常)作为判定正常和异常的参考标准,但和异常的参考标准,但不是不是“金标准金标准”。三、三、 医学参考值范围的制定医学参考值范围的制定双侧双侧 :血清总胆固醇无论过低或过高均属异常血清总胆固醇无论过低或过高均属异常白细胞数无论过低或过高均属异常白细胞数无论过低或过高均属异常单侧上限单侧上限 :如:血清转氨酶、体内有毒物质过高异常如:血清转氨酶、体内有毒物质过高异常单侧下限单侧下限 :如:肺活量过低异常如:肺活量过低异常 单双侧常依
11、据医学专业知识而定。单双侧常依据医学专业知识而定。2.2.单、双侧问题:单、双侧问题: 3. 医学参考值范围有医学参考值范围有90%90%、95%95%、99% 99% 等,等,最常用的为最常用的为95% 95% 。计算医学参考值范围的常用方法:计算医学参考值范围的常用方法: 1.正态分布法正态分布法 2.百分位数法百分位数法样本样本抽取部分观察单位抽取部分观察单位 统计推断统计推断如:样本均数如:样本均数 样本标准差样本标准差S 如:总体均数如:总体均数 总体标准差总体标准差 X抽样误差抽样误差 (sampling error) sampling error) :由于个体变异产:由于个体变异
12、产生的、抽样造成的生的、抽样造成的样本统计量与总体样本统计量与总体参数间差异,称为参数间差异,称为抽样误差。抽样误差。nX/统计量的标准差统计量的标准差称为标准误,是衡量样称为标准误,是衡量样本统计量抽样误差大小的统计指标。本统计量抽样误差大小的统计指标。均数标准误:样本均数的标准差称为均均数标准误:样本均数的标准差称为均数的标准误,它用来说明均数抽样误差的大数的标准误,它用来说明均数抽样误差的大小。小。降低抽样误差的途径有降低抽样误差的途径有: 由于总体标准差由于总体标准差 通常是未知的,通常是未知的,而用样本标准差而用样本标准差S S来估计,因此,均数标来估计,因此,均数标准误准误 的估计
13、值为的估计值为 SnxS X二、总体均数的估计二、总体均数的估计XS、 总体均数的点估计(总体均数的点估计(point estimationpoint estimation)与区间估)与区间估计(计(interval estimation)interval estimation)参数的估计参数的估计点估计:由样本统计量点估计:由样本统计量 直接估计总体参数直接估计总体参数区间估计:按预先给定的概率(区间估计:按预先给定的概率(1-1- )所确定的、包含未知参数的一个范围,所确定的、包含未知参数的一个范围,这个范围称为参数的可信区间(这个范围称为参数的可信区间(Confidence interv
14、al,CI)Confidence interval,CI)、区间估计:区间估计:可信度与可信区间可信度与可信区间 预先给定的概率预先给定的概率1-1- 称为称为可信度可信度或或置信度置信度(confidence level)confidence level),常取,常取95%95%或或99%99%。没有特别。没有特别说明,一般取双侧说明,一般取双侧95%95%。 可信区间有可信下限(可信区间有可信下限(lower limit,L)lower limit,L)和可信和可信上限(上限(upper limit,U)upper limit,U),一般表示为(,一般表示为(L L,U U)。)。 t 检
15、验,亦称检验,亦称student t 检验,主要用于检验,主要用于样本含量较小(如样本含量较小(如n60n1000IU1000IU)的计量资料;的计量资料;4.4.等级资料,比较各组间等级强度的差别时。等级资料,比较各组间等级强度的差别时。4、非参数检验的优点与不足、非参数检验的优点与不足优点:优点:1. 1. 适用范围广泛;适用范围广泛;2. 2. 多数方法计算简便;多数方法计算简便;3. 3. 易于理解和掌握;易于理解和掌握;4. 4. 无法精确测量的资料及等级资料可以采用;无法精确测量的资料及等级资料可以采用;不足:不足:1. 1. 参数检验适用的资料,非参数方法会降低检参数检验适用的资
16、料,非参数方法会降低检验效能;验效能;2. 2. 某些方法的计算过程仍然复杂。某些方法的计算过程仍然复杂。二、几种非参数方法二、几种非参数方法:1.1.配对样本比较的配对样本比较的WilcoxonWilcoxon符号秩检验;符号秩检验;2.2.两个独立样本比较的两个独立样本比较的WilcoxonWilcoxon秩和检验;秩和检验;3.3.完全随机设计多个样本比较的完全随机设计多个样本比较的Kruskal-Wallis Kruskal-Wallis H H 检验;检验;一、配对样本比较的一、配对样本比较的WilcoxonWilcoxon符号秩检验符号秩检验例例 两种方法两种方法ALTALT测量结
17、果比较测量结果比较编号(1)原法(2)新法(3)差值d(4)=(3)-(2)正秩(5)负秩(6)160761682142152105319524348114808221.55242240-21.56220220071902051578253813691982434591038446411236190-4610129510053合计54.511.5二、两个独立样本比较的二、两个独立样本比较的WilcoxonWilcoxon秩和检验秩和检验例例 两类肺病患者两类肺病患者RDRD值比较值比较肺癌病人矽肺0期工人RD值秩次RD值秩次2.7813.232.53.232.53.5044.2074.0454
展开阅读全文