8.3.2 独立性检验 ppt课件 (2)-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《8.3.2 独立性检验 ppt课件 (2)-2022新人教A版(2019)《高中数学》选择性必修第三册.pptx》由用户(Q123)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 高中数学 8.3.2 独立性检验 ppt课件 2_2022新人教A版2019高中数学选择性必修第三册 8.3 独立性 检验 ppt 课件 _2022 新人 2019 选择性 必修 第三 下载 _选择性必修 第三册_人教A版(2019)_数学_高中
- 资源描述:
-
1、8.3.2 独立性检验独立性检验复习:复习:1.分类变量分类变量 用以区别不同的用以区别不同的现象现象或或性质性质的一种特殊的随机变量,称为分类变量的一种特殊的随机变量,称为分类变量分类变量的取值可以用实数表示,例如,学生所在的班级可以用分类变量的取值可以用实数表示,例如,学生所在的班级可以用1,2,3等表示,男性、女性可以用等表示,男性、女性可以用1,0表示,等等表示,等等2.列联表列联表将形如下表这种形式的数据统计表称为将形如下表这种形式的数据统计表称为22列联表列联表.22列联表给出列联表给出了了成对分类变量数据的交叉分类频数成对分类变量数据的交叉分类频数.组别组别甲甲(Y0)乙乙(Y1
2、)合计合计A(X0)ababB(X1)cdcd合计合计acbdabcd前面我们通过前面我们通过22列联表整理成对分类变量的样本观测数据,并根据随机事件列联表整理成对分类变量的样本观测数据,并根据随机事件频率的稳定性推断两个分类变量之间是否有关联频率的稳定性推断两个分类变量之间是否有关联.对于随机样本而言,因为频率对于随机样本而言,因为频率具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样具有随机性,频率与概率之间存在误差,所以我们的推断可能犯错误,而且在样本容量较小时,犯错误的可能性会较大本容量较小时,犯错误的可能性会较大.因此,需要因此,需要找到一种更为合理的推断方找到一
3、种更为合理的推断方法,同时也希望能对出现错误推断的概率有一定的控制或估算法,同时也希望能对出现错误推断的概率有一定的控制或估算.设设X和和Y为定义在以为定义在以为样本空间上,且取值于为样本空间上,且取值于0,1 的的成对分类变量成对分类变量,则判断,则判断事件事件X=1和和Y=1之间是否有关联,主要是看以下假定关系是否成立之间是否有关联,主要是看以下假定关系是否成立.1.零假设或原假设零假设或原假设在这里我们通常把在这里我们通常把H0称为称为零假设零假设或或原假设原假设.其中其中P(Y=1|X=0)表示从表示从X=0中随机选一个样本点,该样本点属于中随机选一个样本点,该样本点属于X=0,Y=1
4、的概率;的概率;P(Y=1|X=1)表示从表示从X=1中随机选一个样本点,该样本点属于中随机选一个样本点,该样本点属于X=1,Y=1的概率的概率.0(1|0)(1|1).HP YXP YX :由条件概率的定义可知,零假设由条件概率的定义可知,零假设H0等价于等价于零假设或原假设:零假设或原假设:由于由于X=0和和X=1为对立事件,故有为对立事件,故有0(1|0)(1|1).HP YXP YX :(10)(11)(0)(1)(10)(1)(11)(0).P YXP YXP XP XP YXP XP YXP X ,或或,(0)1(1).P XP X (01)(1)(11).P XYP YP XY
5、,(1)(1)(11).P XP YP XY 等等价价于于,由此,由此,零假设零假设H0等价于等价于X=1和和Y=1独立独立.由于下列四条性质彼此等价:由于下列四条性质彼此等价:X=0和和Y=0独立;独立;X=0和和Y=1独立;独立;X=1和和Y=0独立;独立;X=1和和Y=1独立独立.如果如果这些性质成立这些性质成立,我们就称,我们就称分类变量分类变量X和和Y独立独立.这相当于下面四个等式成立这相当于下面四个等式成立:(00)(0)(0)(01)(0)(1)(10)(1)(0)(11)(1)(1)P XYP XP YP XYP XP YP XYP XP YP XYP XP Y ,;,;,;,
6、.因此,我们可以用概率语言,将零假设改述为因此,我们可以用概率语言,将零假设改述为 H0:分类变量分类变量X和和Y独立独立.思考思考 如何基于中的四个等式及下列如何基于中的四个等式及下列22列联表中的数据,构造适当的统列联表中的数据,构造适当的统计量,对成对分类变量计量,对成对分类变量X和和Y是否相互独立作出推断是否相互独立作出推断?XY合计合计Y0Y1X0ababX1cdcd合计合计acbdabcd2(00)(0)(0)()()P XYP XP Yab acn 由由于于,则事件则事件X=0,Y=0发生的频数的发生的频数的期望值期望值(或预期值或预期值)为为()().ab acn 所以如果零假
7、设所以如果零假设H0成立,下面四个量的取值都不应该太大成立,下面四个量的取值都不应该太大:()()()()()()()()|ab acab bdcd accd bdabcdnnnn ,.反之,当这些量的取值较大时,就可以推断反之,当这些量的取值较大时,就可以推断H0不成立不成立.显然,分别考虑上面四个差的绝对值很困难,我们需要找到一个既合理又能够显然,分别考虑上面四个差的绝对值很困难,我们需要找到一个既合理又能够计算分布的统计量,来推断计算分布的统计量,来推断H0是否成立是否成立.一般来说,若频数的期望值较大,则差的绝对值也会较大;而若频数的期望一般来说,若频数的期望值较大,则差的绝对值也会较
8、大;而若频数的期望值较小,则相应的差的绝对值也会较小值较小,则相应的差的绝对值也会较小.为了合理地平衡这种影响,我们将为了合理地平衡这种影响,我们将四个四个差的绝对值取平方后分别除以相应的期望值再求和差的绝对值取平方后分别除以相应的期望值再求和,得到如下的统计量,得到如下的统计量:22222()()()()()()()()=()()()()()()()()ab acab bdcd accd bdabcdnnnnab acab bdcd accd bdnnnn +.该表达式可化简为该表达式可化简为22().()()()()n adbcab cdac bd 上述表达式是上述表达式是2的计算公式,的
9、计算公式,2读作读作“卡方卡方”.随机变量随机变量2取值的大小可作为判断零假设取值的大小可作为判断零假设H0是否成立的依据是否成立的依据,当它比较大时,当它比较大时推断推断H0不成立,否则认为不成立,否则认为H0成立成立.那么,究竟那么,究竟2大到什么程度,可以推断大到什么程度,可以推断H0不成不成立呢立呢?或者说,怎样确定判断或者说,怎样确定判断2大小的标准呢大小的标准呢?小概率值小概率值的临界值的临界值:忽略忽略2的实际分布与该近似分布的误差后,对于任何小概率值的实际分布与该近似分布的误差后,对于任何小概率值,可以找到相,可以找到相应的正实数应的正实数x,使得,使得P(2 x)=成立成立.
10、我们称我们称x为为的的临界值临界值,这个,这个临界值就可作临界值就可作为判断为判断2大小的标准,概率值大小的标准,概率值越小,临界值越小,临界值x越大越大.由由P(2 x)=可知,只要把概率值可知,只要把概率值取得充分小,在假设取得充分小,在假设H0成立成立的情况下,的情况下,事事件件2 x是不大可能发生的是不大可能发生的.根据这个规律,如果根据这个规律,如果该事件发生,我们就可以推断该事件发生,我们就可以推断H0不成立不成立.22().()()()()n adbcab cdac bd 2计算公式:计算公式:基于小概率值基于小概率值的检验规则是的检验规则是:当当2x时,我们就推断时,我们就推断
11、H0不成立,即认为不成立,即认为X和和Y不独立,该推断犯错误的概率不独立,该推断犯错误的概率不超过不超过;当当2x时,我们没有充分证据推断时,我们没有充分证据推断H0不成立,可以认为不成立,可以认为X和和Y独立独立.这种利用这种利用2的取值推断分类变量的取值推断分类变量X和和Y是否独立的方法称为是否独立的方法称为2独立性检验独立性检验,读作,读作“卡方独立性检验卡方独立性检验”,简称,简称独立性检验独立性检验.下表给出了下表给出了2独立性检验中几个常用的小概率值和相应的临界值独立性检验中几个常用的小概率值和相应的临界值.0.10.050.010.0050.001x2.7063.8416.635
12、7.87910.828例如,对于小概率值例如,对于小概率值=0.05,我们有如下的具体检验规则,我们有如下的具体检验规则:(1)当当2 x0.05=3.841时,我们推断时,我们推断H0不成立,即认为不成立,即认为X和和Y不独立,该推断犯错不独立,该推断犯错误的概率不超过误的概率不超过0.05;(2)当当2 x0.05=3.841时,我们没有充分证据推断时,我们没有充分证据推断H0不成立,可以认为不成立,可以认为X和和Y独立独立.零假设为零假设为H0:分类变分类变量量X与与Y相互独立,即两校相互独立,即两校学生的数学成绩优秀率无学生的数学成绩优秀率无差异差异.根据表中的数据,计根据表中的数据,
13、计算得到算得到 例例2 依据小概率值依据小概率值=0.1的的2 独立性检验,分析例独立性检验,分析例1中的抽样数据,能否据中的抽样数据,能否据此推断两校学生的数学成绩优秀率有差异此推断两校学生的数学成绩优秀率有差异?解:解:学校学校数学成绩数学成绩合计合计不优秀不优秀(Y0)优秀优秀(Y1)甲校甲校(X0)331043乙校乙校(X1)38745合计合计7117882288(33 710 38)43 45 71 17 0.10.050.010.0050.001x2.7063.8416.6357.87910.8280.837 根据小概率值根据小概率值=0.1的的2独立性检验,没有充分证据推断独立性
14、检验,没有充分证据推断H0不成立,因不成立,因此可以认为此可以认为H0成立,即认为两校的数学成绩优秀率没有差异成立,即认为两校的数学成绩优秀率没有差异.0.12.706.x 思考思考 例例1和例和例2都是基于同一组数据的分析,但却得出了不同的结论,你能都是基于同一组数据的分析,但却得出了不同的结论,你能说明其中的原因吗说明其中的原因吗?事实上,如前所述,例事实上,如前所述,例1只是根据只是根据一个样本的两个频率间存在差异一个样本的两个频率间存在差异得出得出两校学生数学成绩优秀率两校学生数学成绩优秀率有差异有差异的结论,并没有考虑由的结论,并没有考虑由样本随机性样本随机性可能导可能导致的错误,所
15、以例致的错误,所以例1的推断依据不太充分,在例的推断依据不太充分,在例2中,我们中,我们用用2独立性检验独立性检验对零假设对零假设H0进行了检验进行了检验.通过计算,发现通过计算,发现2 0.837小于小于=0.1所对应的临界所对应的临界值值2.706,因此认为,因此认为没有充分证据推断没有充分证据推断H0不成立不成立,所以接受,所以接受H0,推断出两,推断出两校学生的数学成绩优秀率校学生的数学成绩优秀率没有显著差异没有显著差异的结论的结论.这个检验结果意味着,这个检验结果意味着,抽抽样数据中两个频率的差异很有可能是由样本随机性导致的样数据中两个频率的差异很有可能是由样本随机性导致的.因此,因
16、此,只根据只根据频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的频率的差异得出两校学生的数学成绩优秀率有差异的结论是不可靠的.由此可见,相对于简单比较两个频率的推断,由此可见,相对于简单比较两个频率的推断,用用2独立性检验得到的结独立性检验得到的结果更理性、更全面,理论依据也更充分果更理性、更全面,理论依据也更充分.零假设为零假设为H0:疗法与疗效独立,即疗法与疗效独立,即两种疗法效果没有差异两种疗法效果没有差异.由已知数据列出列联表由已知数据列出列联表.例例3 某儿童医院用甲、乙两种疗法治疗小儿消化不良某儿童医院用甲、乙两种疗法治疗小儿消化不良.采用有放回简单随采用有放回简单随机
17、抽样的方法对治疗情况进行检查,得到了如下数据机抽样的方法对治疗情况进行检查,得到了如下数据:抽到接受甲种疗法的抽到接受甲种疗法的患儿患儿67名,其中未治愈名,其中未治愈15名,治愈名,治愈52名名;抽到接受乙种疗法的患儿抽到接受乙种疗法的患儿69名,其名,其中未治愈中未治愈6名,治愈名,治愈63名名.试根据小概率值试根据小概率值=0.005的独立性检验,分析乙种的独立性检验,分析乙种疗法的效果是否比甲种疗法好疗法的效果是否比甲种疗法好.解:解:疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计2111513622136(15 6352 6)67 69 21 11
18、5 4.881 根据小概率值根据小概率值=0.005的的2独立性检验,没有充分证据推断独立性检验,没有充分证据推断H0不成立,不成立,因此可以认为因此可以认为H0成立,即认为两种疗法效果没有差异成立,即认为两种疗法效果没有差异.0.0057.879.x 0.10.050.010.0050.001x2.706 3.841 6.635 7.879 10.828对犯错误概率的解释对犯错误概率的解释在零假设在零假设H0成立的前提下,随着成立的前提下,随着小概率值小概率值的逐渐减小的逐渐减小,2统计量对应的统计量对应的临临界值界值x逐渐增大逐渐增大,则事件,则事件2 x越来越不容易发生,越来越不容易发生
19、,零假设越来越不容易被拒零假设越来越不容易被拒绝绝;随着;随着小概率值小概率值的逐渐增大的逐渐增大,2统计量对应的统计量对应的临界值临界值x逐渐减小逐渐减小,则事件,则事件2 x越来越容易发生,越来越容易发生,零假设越来越容易被拒绝零假设越来越容易被拒绝.例如,对于例例如,对于例3中的数据,经计算得中的数据,经计算得2 4.881.(1)当小概率值当小概率值=0.005时,时,x0.005=7.879,此时此时2 4.8813.841,则,则拒绝零假设拒绝零假设,即认为两种疗法的效果即认为两种疗法的效果有差异有差异,该推断犯错误的概率不超过该推断犯错误的概率不超过0.05.(3)当小概率值当小
20、概率值=0.1时,时,x0.05=2.706,此时此时2 4.8812.706,则,则拒绝零假设拒绝零假设,即认为两种疗法的效果即认为两种疗法的效果有差异有差异,该推断犯错误的概率不超过该推断犯错误的概率不超过0.1.观察观察 在例在例3的的22列联表中,若对调两种疗法的位置或对调两种疗效的位列联表中,若对调两种疗法的位置或对调两种疗效的位置,则卡方计算公式中置,则卡方计算公式中a,b,c,d的赋值都会相应地改变的赋值都会相应地改变.这样做会影响这样做会影响2取值取值的计算结果吗的计算结果吗?疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈甲甲155267乙乙66369合计合计2111513622
21、136(15 6352 6)4.881.67 69 21 115 这说明,对调两种疗法的位置,不会影响这说明,对调两种疗法的位置,不会影响2取值的计算结果,同理对调取值的计算结果,同理对调两种疗效的位置也不会影响结果两种疗效的位置也不会影响结果.对调前对调前疗法疗法疗效疗效合计合计未治愈未治愈治愈治愈乙乙66369甲甲155267合计合计21115136对调后对调后22136(6 5263 15)69 67 21 115 4.881.变式变式1 为了研究每周累计户外暴露时间是否足够为了研究每周累计户外暴露时间是否足够(单位:小时单位:小时)与近视发病率的关与近视发病率的关系,对某中学一年级系,
展开阅读全文
链接地址:https://www.163wenku.com/p-3588314.html