医药统计学-第一章-数据的描述与整理概要课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医药统计学-第一章-数据的描述与整理概要课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医药 统计学 第一章 数据 描述 整理 概要 课件
- 资源描述:
-
1、是研究是研究数量规律的数量规律的数学学科。数学学科。eg:研究运动员打靶成绩的规律,分析研究运动员打靶成绩的规律,分析11种可能结种可能结果(果(0、1、2、3、4、.、10环)出现的概率及其规环)出现的概率及其规律性。律性。以以为基为基础,通过对数据的础,通过对数据的、和和来研究来研究的统计规律的学科。的统计规律的学科。以以、为基为基础,研究础,研究(数据)的(数据)的、和和的科学。的科学。目的是帮助人们分析所占有的信息,达到去伪目的是帮助人们分析所占有的信息,达到去伪存真、去粗取精、正确认识世界的一种重要手段。存真、去粗取精、正确认识世界的一种重要手段。:单数名词表示统计学,复数名词表示统
2、单数名词表示统计学,复数名词表示统计数据或资料。计数据或资料。Webster国际大辞典(第三版)对统计学的定义国际大辞典(第三版)对统计学的定义是:是:“a science dealing with the collection,analysis,interpretation and presentation of numerical data”。Last JM 主编的一本流行病学辞典对统计学的主编的一本流行病学辞典对统计学的定义是:定义是:“the of dealing with variation in data through collection,classification and
3、analysis in such a way as to obtain reliable results”。由此看出:统计学是处理资料中变异性的科学由此看出:统计学是处理资料中变异性的科学和艺术,是在收集、归类、分析和解释大量数据的和艺术,是在收集、归类、分析和解释大量数据的过程中获取可靠结果的一门学科,强调了过程中获取可靠结果的一门学科,强调了“”。任何统计工作和统计研任何统计工作和统计研 究的全过程都可分为以下究的全过程都可分为以下五个步骤五个步骤:(design):):关键、依据。在进行统计工作和研关键、依据。在进行统计工作和研 究工作之前必须有一个周密的设计。究工作之前必须有一个周密的
4、设计。前期准备工作前期准备工作 设计内容包括:设计内容包括:确定研究目的、研究假说;确定研究目的、研究假说;确定观察对象、观察单位、样本含量和抽样方法;确定观察对象、观察单位、样本含量和抽样方法;拟定研究方案;拟定研究方案;预期分析指标、误差控制措施、进度与费用等。预期分析指标、误差控制措施、进度与费用等。设计是整个研究工作中设计是整个研究工作中的一环,也是指导的一环,也是指导以后工作的依据。以后工作的依据。(collection of data):):遵循统计学原理遵循统计学原理 采取必要措施得到准确可靠的原始资料。采取必要措施得到准确可靠的原始资料。、原则。原则。):包括:包括。eg:日常
5、医疗卫生工作记录、统计报表、专门报告卡日常医疗卫生工作记录、统计报表、专门报告卡等;等;(一时性资料)。(一时性资料)。eg:专题专题调查资料、实验研究资料。调查资料、实验研究资料。文献的二次开发(循证文献的二次开发(循证医学)。医学)。(sorting data):):通过科学的分组和归纳,通过科学的分组和归纳,用图表的形式来展示资料特征,使原始资料系统化、用图表的形式来展示资料特征,使原始资料系统化、条理化,便于进一步计算统计指标和分析。条理化,便于进一步计算统计指标和分析。步骤:步骤:遵循及时性、完整性、准确性、有效性原则。遵循及时性、完整性、准确性、有效性原则。包括包括与与。(eg:录
6、入误差录入误差170输入为输入为17,对结果影响,对结果影响较大,故应进行双份录入)较大,故应进行双份录入)按性质、类别分类整理,即按性质、类别分类整理,即“同质者同质者合并,非同质者分开合并,非同质者分开”的原则对资料进行分组。多的原则对资料进行分组。多用于定性数据(定类或定序数据)的整理。一般用用于定性数据(定类或定序数据)的整理。一般用二维表。二维表。按数量大小分组整理,即在同质基础按数量大小分组整理,即在同质基础上根据数值大小进行分组,组与组之间是连续的或上根据数值大小进行分组,组与组之间是连续的或非连续的。多用于定量数据(数值数据)的整理。非连续的。多用于定量数据(数值数据)的整理。
7、汇总归纳。汇总归纳。(analysis of data):):目的是计算有关指目的是计算有关指标,反映数据的综合特征,阐明事物的内在联系和标,反映数据的综合特征,阐明事物的内在联系和规律,是统计学的规律,是统计学的。包括:包括:(descriptive statistics):用):用(样(样本均数、标准差、率)本均数、标准差、率)与与等方法对样本资等方法对样本资料的数量特征及其分布规律进行描述分析事物特征。料的数量特征及其分布规律进行描述分析事物特征。(inferential statistics):指):指,以,以及如何用及如何用特征,分析事物间相互特征,分析事物间相互关系关系(eg:药物
8、疗效的统计学分析)药物疗效的统计学分析)。(interpretation of data):):对统计结果进对统计结果进行说明和应用行说明和应用(eg:药物疗效的统计判断)药物疗效的统计判断)。进行资料分析时,需根据进行资料分析时,需根据、和和选择恰当的描述性指标和统计推断方法。选择恰当的描述性指标和统计推断方法。统计工作的五个步骤统计工作的五个步骤,任何一,任何一步的缺陷,都将影响整个研究结果。步的缺陷,都将影响整个研究结果。目前,应用广泛,成为医药学研究、疾病防治、卫目前,应用广泛,成为医药学研究、疾病防治、卫生事业管理等多方面的重要手段、工具之一,即成生事业管理等多方面的重要手段、工具之
9、一,即成为为。应用应用与与的原理与方法研究的原理与方法研究以及卫生服务领域中数据的以及卫生服务领域中数据的、和和的一门科学。的一门科学。理论基础理论基础、研究对象研究对象、医药领域:新药研制、药物鉴定、药理分析、试验医药领域:新药研制、药物鉴定、药理分析、试验设计、药政管理、处方筛选、医药信息等。设计、药政管理、处方筛选、医药信息等。目的:目的:掌握医药数理统计学的基本掌握医药数理统计学的基本、基本、基本、基本、基本,为今后从事医药领域的科学研,为今后从事医药领域的科学研究、阅读专业书刊、从事具体的实践工作打下必要究、阅读专业书刊、从事具体的实践工作打下必要的数理统计学基础。的数理统计学基础。
10、研究统计资料的研究统计资料的是判断统计资料的是判断统计资料的(故应初步编制频数分布表,绘制频数分布图)(故应初步编制频数分布表,绘制频数分布图)。频数(频数(frequence):各类别的数据个数,即观察值):各类别的数据个数,即观察值的个数。的个数。频率(频率(frequency/relative frequency):各类别的数):各类别的数据个数占总数据个数的比例值。据个数占总数据个数的比例值。频数分布表(频数分布表(frequency table):反映各类别及其相):反映各类别及其相应频数的表格形式,即观察值在其所取范围内分布的应频数的表格形式,即观察值在其所取范围内分布的情况。情况
11、。100400个数据,一般分个数据,一般分515个组个组段,可适当变动。段,可适当变动。观察单位较少时组段数可相对少些,观察单位较多观察单位较少时组段数可相对少些,观察单位较多时组段数可相对多些。时组段数可相对多些。Sturgesr的经验公式计算组数:的经验公式计算组数:k=1+lnN/ln2 (N:数据的个数数据的个数;ln:以以e为底的自然对数为底的自然对数):不可过多:资料分散,编制与计算繁锁,且分布规律不能显示。不可过多:资料分散,编制与计算繁锁,且分布规律不能显示。不可过少:损失信息,计算误差较大,且无法显示分布特征。不可过少:损失信息,计算误差较大,且无法显示分布特征。原则:以显示
12、数据的分布特征和规律为依据。原则:以显示数据的分布特征和规律为依据。(class interval/class width):相邻两组):相邻两组段的下限之差称为组距。段的下限之差称为组距。全距或极差(全距或极差(range):):R=最大值最大值最小值最小值=Xmax Xmin组距组距(d):d=R/k:d 可等距,也可不等距。可等距,也可不等距。eg:数据中有特大或特小的数值(食物中毒的潜数据中有特大或特小的数值(食物中毒的潜伏期,年龄分组伏期,年龄分组0-0-、7-7-、1818、60-60-等)等)。各组段的起点和终点分别称为下限和上各组段的起点和终点分别称为下限和上限。限。原则:不重
13、不漏;原则:不重不漏;:第一组段应包括全部观察值中的最小值,最末组段第一组段应包括全部观察值中的最小值,最末组段应包括全部观察值中的最大值,并且同时写出其下应包括全部观察值中的最大值,并且同时写出其下限与上限。限与上限。连续性资料的某组段包含下限,但不包含上限。连续性资料的某组段包含下限,但不包含上限。确定组段界限,列成确定组段界限,列成 表表1.3的形式,采用计算机或用划记法将原始数据汇的形式,采用计算机或用划记法将原始数据汇总,得出各组段的观察例数,即频数,表中的第总,得出各组段的观察例数,即频数,表中的第(1)、()、(2)栏即所需的频数表。)栏即所需的频数表。:计算机编制准确、快速,但
14、应保证原始数据的准确输计算机编制准确、快速,但应保证原始数据的准确输入和组距的合理设计。入和组距的合理设计。p 频数表的用途频数表的用途,便于进一步分析。,便于进一步分析。观察观察:描述描述集中趋势、集中趋势、离散趋势和分布的的形状。离散趋势和分布的的形状。观察数据的观察数据的(),以便选取适),以便选取适 当的统计方法。当的统计方法。发现资料中某些特大或特小的发现资料中某些特大或特小的。当样本含量较大时,各组段的频率作为当样本含量较大时,各组段的频率作为值。值。指多数频数集中在中央位置,两端的频指多数频数集中在中央位置,两端的频 数分布大致对称。特殊的对称分布为数分布大致对称。特殊的对称分布
15、为(normal distribution)。)。eg:体重、身高等生理、生化检测结果等。体重、身高等生理、生化检测结果等。频数分布不对称,集中位置偏向一侧。频数分布不对称,集中位置偏向一侧。124132140148156164010203040人人数数身高身高(cm)Fraction身高110.2134.50.236364eg:又称又称,指观察值较多的集,指观察值较多的集中在数值较小的一侧中在数值较小的一侧(eg:传染病的潜伏期、非必需元素传染病的潜伏期、非必需元素含量分布等)。含量分布等)。又称又称,指观察值较多的集,指观察值较多的集中在数值较大的一侧中在数值较大的一侧(eg:学生成绩、儿
16、童视力、糖尿病学生成绩、儿童视力、糖尿病年龄分布、冠心病、大多数恶性肿瘤等慢性病患者的年龄分布年龄分布、冠心病、大多数恶性肿瘤等慢性病患者的年龄分布为负偏态分布)。为负偏态分布)。:Frequencyvar512345678902468Frequencyvar6123456789100510二、常用统计软件简介二、常用统计软件简介全称全称Statistical Analysis System,是当前最流行的,是当前最流行的的统计分析软件,但操作略为繁琐。的统计分析软件,但操作略为繁琐。全称全称Statistical Package for Social Science,是,是的专业统计分析软件
17、,操作的专业统计分析软件,操作方便。方便。可进行基本的统计分析。操作简便。可进行基本的统计分析。操作简便。(central tendency):身高有高有):身高有高有 矮,但多数人身高集中在中间部分组段,以中等矮,但多数人身高集中在中间部分组段,以中等身身 高居多,此为集中趋势。高居多,此为集中趋势。(dispersion):由中等身高到较矮或:由中等身高到较矮或 较高的频数分布逐渐减少,反映了离散程度。对较高的频数分布逐渐减少,反映了离散程度。对于于 数值变量资料,可从集中趋势和离散程度两个侧数值变量资料,可从集中趋势和离散程度两个侧面面 去分析其规律性。去分析其规律性。:峰度与偏度。:峰
18、度与偏度。分布的形状分布的形状频数分布表、图显示的集中趋势和离散程度较频数分布表、图显示的集中趋势和离散程度较,而计算其各指标则是准确、定量描述其,而计算其各指标则是准确、定量描述其分布特征。分布特征。平均数,反映观察值的集中位平均数,反映观察值的集中位置或平均水平,即观察值的典型水平或代表值。置或平均水平,即观察值的典型水平或代表值。描述一组描述一组观察值的平均水平或中心位置的观察值的平均水平或中心位置的常用指标有常用指标有均数均数、中位数中位数、众数众数、几何均数几何均数等。等。平均水平指标平均水平指标:简称:简称,是反映一组是反映一组的呈的呈的的的的的指标,用得最多的统计描述指标。的指标
19、,用得最多的统计描述指标。x(1 1)计算:计算:直接法:直接法:eg:1010名七岁儿童体重名七岁儿童体重(kg)分别分别17.3,18.0,19.4,20.6,21.2,21.8,22.5,23.2,24.0,25.5,求平均体重求平均体重。解:解:x17.3+18+25.5 1021.35(kg)加权法加权法(weighting method):xf1x1+f2x2+f3x3+fnxn f1+f2+f3+fn f x f它是权重!它是权重!组中值组中值(2 2)应用()应用():均数能全面反映全部观察值的平均数量水均数能全面反映全部观察值的平均数量水平,应用甚广,平,应用甚广,最适于最适
20、于资料,特别是资料,特别是的数值资料的数值资料;对于偏态资料,均数对于偏态资料,均数较好地反映其集较好地反映其集中趋势。中趋势。我也知道我也知道了!了!(3 3)数学性质)数学性质:)=0=0 )2 2 其中,其中,a为任意实数。为任意实数。niix1(xniix1(x21niiax截尾截尾均值均值eg:比赛时去比赛时去掉一个最高分、掉一个最高分、一个最低分,一个最低分,然后计算均值。然后计算均值。(median):将一组数据按从小到大的将一组数据按从小到大的 顺序排列,位置居中的数即是中位数。是反顺序排列,位置居中的数即是中位数。是反映一组映一组的呈的呈的的的的水平。用水平。用 表示。表示。
21、(1 1)计算:)计算:直接法:直接法:(1)/2/2/2 1 n()/2 n nnnXMXX当当 为为奇奇数数当当 为为偶偶数数Me eg:9例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 Me=4.8 9例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 16 Me=4.8 10例正常人的发汞值:例正常人的发汞值:1.1,1.8 3.5 4.2 4.8 5.6 5.9 7.1 10.5 16 Me=(4.8+5.6)/2=5.2 加权法:加权法:我知道了!我知道了!)2(LMfnf
展开阅读全文