数值变量资料的统计推断1课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数值变量资料的统计推断1课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数值 变量 资料 统计 推断 课件
- 资源描述:
-
1、 A.想知道合肥市现今新生儿出生体重想知道合肥市现今新生儿出生体重B.根据某几个学校男大一学生的入学体检身根据某几个学校男大一学生的入学体检身高资料,推测该市大一学生男性身高高资料,推测该市大一学生男性身高总体参数的估计总体参数的估计A.经常参加锻炼的女子脉搏是否等于经常参加锻炼的女子脉搏是否等于74次次/分分B.比较来自中国广东省与河北省的一年级男大学生身比较来自中国广东省与河北省的一年级男大学生身 高。以在合工大和中科大的两省男生为样本,得出高。以在合工大和中科大的两省男生为样本,得出样本均值分别为样本均值分别为168.2cm与与169.9cm,推测总体推测总体均值是否相等均值是否相等推测
2、某个总体参数是否等于某个值或两个推测某个总体参数是否等于某个值或两个或两个以上的总体参数是否相等或两个以上的总体参数是否相等均数的抽样误差和标准误均数的抽样误差和标准误第一节 抽样误差与总体均数的估计例如,从总体均数例如,从总体均数为为4.834.83 /L /L、标准差标准差 为为 0.520.52 /L /L的正态分布总体的正态分布总体N N(4.83,0.522)(4.83,0.522)中,随机中,随机 抽取抽取1010人为一个样本人为一个样本 (n n=10=10),并计算该样本的均数、),并计算该样本的均数、标准差。如此重复抽取标准差。如此重复抽取100100次(次(g=100g=1
3、00),可得到),可得到100100份份 样本,可得到样本,可得到100100对均数对均数 和标准差和标准差S。x正态总体=4.83=0.521.4.58,0.382.4.90,0.453.4.76,0.4999.4.87,0.59100.4.79,0.39S12101210XX 抽样误差抽样误差 sampling error of meansampling error of mean:由于抽样而引起的差异。由于抽样而引起的差异。图图9-1 随机抽样所得随机抽样所得100个样本均数的分布个样本均数的分布(standard error,SE)样本均数的标准差,可用于衡量抽样误样本均数的标准差,可
4、用于衡量抽样误差的大小。差的大小。XnXSSn未知未知已知已知计算了计算了100个样本的标准差个样本的标准差S,由此可计算由此可计算样本的标准误大小。样本的标准误大小。0.38100.45100.49100.3910XXXXSSnSSnSSnSSn第 1个 样 本=0.120第 2个 样 本=0.142第 3个 样 本=0.155第 100个 样 本=0.1230.520.164410Xn 100个样本均数中,各样本均数间存在差样本均数中,各样本均数间存在差异,但各样本均数在总体均数周围波动。异,但各样本均数在总体均数周围波动。样本均数的分布曲线为中间高,两边低,样本均数的分布曲线为中间高,两
5、边低,左右对称,近似服从左右对称,近似服从正态分布正态分布。8276.483.4X 当样本例数当样本例数n一定时,标一定时,标准误与标准差呈正比;准误与标准差呈正比;当标准差一定时,标准误与当标准差一定时,标准误与样本含量样本含量n的平方根呈反比。的平方根呈反比。通过增加样本含量通过增加样本含量n来降低抽样误差。来降低抽样误差。Xn0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.7
6、44.955.155.365.575.775.986.19均数频数0501001502002503003504004503.713.924.124.334.544.744.955.155.365.575.775.986.19均数频数30nn=5n=103个抽样实验结果图示标准误标准误 标准差标准差定义反映抽样误差 反映个体变异用途总体均数可信区间 医学参考值范围进行统计学检验计算标准误、CV联系:联系:当当n一定时标准差大,标准误也大一定时标准差大,标准误也大 样本的均数围绕总体均数上下波动。样本的均数围绕总体均数上下波动。均数的标准差即标准误均数的标准差即标准误 样本均数的标准误(样本均数的
7、标准误(Standard Error)Standard Error)计算公式为:计算公式为:样本的标准差样本的标准差/从正态总体从正态总体N N(,(,2 2)中抽取样本,获得均中抽取样本,获得均数数的分布仍近似呈正态分布的分布仍近似呈正态分布N N(,(,2 2/n n)。nS样本含量二、二、t 分布分布(t-distribution)随机变量随机变量X XN N(,2 2)标准正态分布标准正态分布N N(0 0,1 12 2)u变换Xu均数均数标准正态分布标准正态分布N N(0 0,1 12 2)),(2nN1,nvSXnSXtXStudent Student t t分布分布自由度:自由度
8、:n n-1-1XnXu/图3-1 不同自由度下的t 分布图 以0为中心,左右对称的单峰分布;t分布曲线是一簇曲线,其形态变化与自由度的 大小有关。自由度越小,则t值越分散,曲线越低平;自由度逐渐增大时,t分布逐渐逼近u分布(标准 正态分布);当趋于时,t分布即为u分布。pSX、参数的估计参数的估计点估计:点估计:由样本统计量 直接估计总体参数区间估计:区间估计:在一定置信度(Confidence level)下,估计总体参数可能存在的范围、三、总体均数的估计三、总体均数的估计估计正确的概率估计正确的概率(1(1 )称为可信度或置信度称为可信度或置信度(confidence levelconf
9、idence level),),常取常取9595或或9999。置信区间置信区间(confidence interval,CIconfidence interval,CI)是根是根据一定的置信度估计得到的区间。据一定的置信度估计得到的区间。总体均数的95%CI的涵义:从理论上来说,做100次抽样,可算得100个置信区间,平均有95个置信区间包括总体均数,只有5个置信区间不包括总体均数。(一)置信区间的有关概念(一)置信区间的有关概念(二)总体均数置信区间的计算(二)总体均数置信区间的计算 未知,且未知,且n 较小,较小,按按t分布分布 已知,或已知,或 未知但未知但n足够大,按足够大,按 u 分
10、布分布1、未知、样本例数较小时 按 t 分布原理,95%的 t 值在t0.05/2之间,即:-t0.05/2t+t0.05/2,-t0.05/2XSXt0.05/2,移项后,X-t0.05/2 XS X+t0.05/2 XS,故总体均数的 95%可信区间为:x-t0.05/2,xS,x+t0.05/2,xS u0.05/2=1.962.未知但未知但n较大时,按较大时,按u分布计算总体均数分布计算总体均数的可信区间。双侧的可信区间。双侧1-可信区间为:可信区间为:3.已知时,总体均数双侧已知时,总体均数双侧1-可信区间为:可信区间为:u0.05/2=1.96)(2/XSuX)(2/XuX)(2/
11、nuX=(四)总体均数可信区间与参考值范围的区别(四)总体均数可信区间与参考值范围的区别 均数的抽样误差均数的抽样误差 标准误:计算公式、意义和特点标准误:计算公式、意义和特点 t分布及其特征分布及其特征 总体均数可信区间总体均数可信区间 含义含义 估计方法估计方法 与医学参考值的区别与医学参考值的区别1 1 正态曲线下面积分布规律是正态曲线下面积分布规律是:A.A.1.961.96范围内占曲线下面积的范围内占曲线下面积的99%99%B.B.1.961.96范围内占曲线下面积的范围内占曲线下面积的95%95%C.C.1 1 范围内占曲线下面积的范围内占曲线下面积的68%68%D.D.2.582
12、.58范围内占曲线下面积的范围内占曲线下面积的95%95%E.E.2.582.58范围内占曲线下面积的范围内占曲线下面积的99%99%课堂练习题课堂练习题 2 2 某市某市120120名名1212岁男孩平均身高为岁男孩平均身高为143.10cm,143.10cm,标准差为标准差为5.67cm,5.67cm,则身高在则身高在128.24-157.96cm128.24-157.96cm范围内范围内的理论频数最接近下列哪个值的理论频数最接近下列哪个值?A.114 B.119 A.114 B.119 C.64 D.72 C.64 D.72 E.96 E.96 3 3 衡量抽样误差大小的统计指标是:衡量
13、抽样误差大小的统计指标是:A.A.标准差标准差 B.B.变异系数变异系数 C.C.方差方差 D.D.标准误标准误 4 4 关于关于t t值有值有:A.A.与总体均数和样本均数之差成正比与总体均数和样本均数之差成正比 B.B.与标准误成反比与标准误成反比 C.C.与样本含量有关与样本含量有关 D.D.自由度一定时自由度一定时,t,t值愈大值愈大,P,P值越小值越小 E.E.符合正态分布符合正态分布 数值变量资料的统计推断数值变量资料的统计推断第二节第二节 假设检验的基本思想和基本步骤假设检验的基本思想和基本步骤(一)假设检验的基本思想(一)假设检验的基本思想利用反证法的思想假设检验的基本思想和步
14、骤假设检验的基本思想和步骤 利用小概率反证法思想,先建立假设;然后在利用小概率反证法思想,先建立假设;然后在H H0 0成立的条件下计算检验统计量,最后获得成立的条件下计算检验统计量,最后获得P P值来判断值来判断。当。当P P值值小于或等于预先规定的概率值小于或等于预先规定的概率值,就是小概,就是小概率事件。根据小概率事件的原理:小概率事件在一率事件。根据小概率事件的原理:小概率事件在一次抽样中发生的可能性很小,如果他发生了,则有次抽样中发生的可能性很小,如果他发生了,则有理由怀疑原假设理由怀疑原假设H H0 0,认为其对立面,认为其对立面H H1 1成立,该结论成立,该结论可能犯大小为可能
15、犯大小为的错误。的错误。例例 某地抽样调查了某地抽样调查了2626名男性管理人员的空腹名男性管理人员的空腹血糖,均数为血糖,均数为4.84mol/L4.84mol/L,标准差为,标准差为0.85mol/L0.85mol/L。已知大量调查的一般健康成年男性空腹静脉血已知大量调查的一般健康成年男性空腹静脉血糖的均数为糖的均数为4.70mol/L4.70mol/L。试问能否认为该地健。试问能否认为该地健康男性管理人员的空腹血糖的均值与一般正常康男性管理人员的空腹血糖的均值与一般正常健康成年男性的的均值不同?健康成年男性的的均值不同?差异来自哪里?差异来自哪里?(1)由于抽样误差造成的由于抽样误差造成
16、的.(实际上实际上 ,但,但由于抽样误差由于抽样误差 不能很好代表不能很好代表 )(2)该地男性管理人员的空腹血糖该地男性管理人员的空腹血糖与与一般健康成年一般健康成年男性空腹静脉血糖男性空腹静脉血糖()()0 x00 假设检验的目的就是假设检验的目的就是判断差异的原因判断差异的原因:求出由抽样误差造成此差异的可能性求出由抽样误差造成此差异的可能性(概率概率P)有多大有多大!若若 P 较大较大(P0.05),认为是由于抽样误差造成的。认为是由于抽样误差造成的。原因(原因(1),实际上),实际上 若若 P 较小较小(P0.05),认为不是由于抽样误差造成的。认为不是由于抽样误差造成的。原因(原因
17、(2),实际上),实际上 00(二)假设检验的基本步骤(二)假设检验的基本步骤1.1.建立假设建立假设2.2.确定检验水准确定检验水准3.3.选定检验统计方法,计算检验统计量选定检验统计方法,计算检验统计量4.4.确定确定P P值,作出推断结论值,作出推断结论1、建立假设建立假设H0:(无效无效假设)假设)=0H1:(备择假设)(备择假设)0(0)2 2、确定检验水准、确定检验水准检验水准的意义及确定(检验水准的意义及确定(单、双侧检验的选择)单、双侧检验的选择)(1 1)根据专业知识)根据专业知识 事先不知道会出现什么结果事先不知道会出现什么结果 双侧双侧 事先知道只能出现某种结果事先知道只
18、能出现某种结果 单侧单侧(2 2)问题的提法)问题的提法*通常用双侧通常用双侧(除非有充足的理由选用单侧之外除非有充足的理由选用单侧之外,一般选用一般选用保守的双侧较稳妥保守的双侧较稳妥)3、选定检验方法,计算检验统计量选定检验方法,计算检验统计量4 4、确定、确定P P值,作出推断结论值,作出推断结论P值:在H0成立的情况下,获得比现有统计量更极端的概率。(推断的结论统计结论专业结论)P P0.050.05,按按 检验水准,检验水准,不拒绝不拒绝H H0 0,差异无统计学,差异无统计学 意义意义(差异无显著性差异无显著性),还不能认为还不能认为不同或不等。不同或不等。P0.05P0.05 ,
19、按按 检验水准,拒绝检验水准,拒绝H H0 0,接受接受H H1 1,差异有统计学意义,可以认为差异有统计学意义,可以认为不同或不等。不同或不等。P0.01P0.01,按按 检验水准,拒绝检验水准,拒绝H H0 0,接受接受H H1 1,差异有差异有高度高度统计学意义,可以认为统计学意义,可以认为不同或不等。不同或不等。05.005.005.0 确定确定P 值:值:(用求出的t 值与查表查出的t 值比较)查查t 值表:值表:91101,10nn250.3,262.29,01.09,05.0tt (t 越大,越大,P 越小越小)(1)求出求出t=1.833,P0.05 (2)求出求出t=4.18
20、,P0.01 (3)求出求出t=2.96,0.01P0.05 (简写为简写为P0.05)(4)求出求出t=3.25,P=0.01Pt0.050.013.2502.2621.833P0.054.18P0.01P0.052.96第三节第三节 t t 检验和检验和 u u 检验检验t t 检验应用条件:检验应用条件:当当n100n 0 0 即即脂肪肝患者尿素氮测定值脂肪肝患者尿素氮测定值 的均值高于一般健康人的均值高于一般健康人05.0(2 2)选定检验方法,计算检验统计量)选定检验方法,计算检验统计量n=16100n=16100,故选用故选用t t检验。检验。已知已知15116132.216/92
展开阅读全文