1、独立性检验的基本思想及其初步应用(1)高二年级 数学首都经济贸易大学附属中学 问题1 前面我们学习了回归分析的基本思想及其初步应用. 什么是回归分析呢?回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.回顾案例“女大学生的身高和体重的关系”研究过程编号12345678身高 / cm165165157170175165155170体重 / kg48575054646143598名女大学生的身高和体重数据,如下表所示.第一步:明确解释变量和预报变量,画散点图.回归分析的步骤第一步:明确解释变量和预报变量,画散点图.回归分析的步骤判断:身高和体重具有较好的线性相关关系.第二步:求线性回归
2、方程.线性回归模型:ybxa0.84985.712yx回归方程:问题2 如何判断模型拟合效果的好坏?衡量标准最小二乘估计:121()()()niiiniixxyybaybxxx, 第三步:残差分析8名女大学生的身高、体重数和相应残差数据,如下表所示:编号12345678身高 / cm165165157170175165155170体重 / kg4857505464614359残差-6.3732.6272.419-4.6181.1376.627-2.8830.382e初步感知:第1个和第6个样本数据残差较大.(1)列表格初步感知.残差:eyy第三步:残差分析(2)画残差图直观判断.直观判断:第1
3、个和第6个样本点残差较大.第三步:残差分析(3)引入指标 准确刻画.准确判断:女大学生的身高解释了64%的体重变化.2R21221()1()niiiniiyyyRy 2R越接近于1回归效果越好20.64R 编号12345678身高 / cm165165157170175165155170体重 / kg48575054646143598名女大学生的身高和体重数据,如下表所示:像身高、体重这样的变量称为数值变量.分类变量:这种变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.性别是否喜欢数学男 女喜欢数学不喜欢数学性别喜欢数学吸烟患肺癌主题:两个分类变量之间是否有关系?如何得到准确
4、的判断呢?探究:为研究吸烟是否对患肺癌有影响,某肿瘤研究所随机地调查了9965人,得到如下结果:思考:吸烟是否对患肺癌有影响?像这样列出的两个分类变量的频数表,称为列联表.不患肺癌 患肺癌总 计不吸烟7775427817吸烟2099492148总计9874919965吸烟与患肺癌列联表不患肺癌 患肺癌总 计不吸烟7775427817吸烟2099492148总计987491996549100%2.28%214842100%0.54%7817初步感知:吸烟群体和不吸烟群体患肺癌的可能性存在差异.(1) 通过列联表初步感知(2) 通过等高条形图直观判断直观判断:吸烟群体和不吸烟群体患肺癌的可能性存在
5、差异.问题3 能否根据图形得到“吸烟”与“患肺癌”的关系呢?0%10%20%30%40%50%60%70%80%90%100%不吸烟吸烟不患肺癌患肺癌列联表吸烟与患肺癌有关等高条形图散点图身高与体重线性相关直观“身高”可以解释64%“体重”变化残差2R问题4 我们有多大的把握认为“吸烟和患肺癌有关”?这种判断能否有衡量的标准?(3) 通过独立性检验准确判断直观判断:吸烟与患肺癌有关假设 :吸烟与患肺癌没有关系吸烟与患肺癌没有关系吸烟与患肺癌独立()( ) ( )P ABP A P B假设 成立事件A的发生不会影响事件B发生的概率,事件A与事件B相互独立.事件A:不吸烟事件B:不患肺癌事件AB
6、:不吸烟且不患肺癌不患肺癌 患肺癌总 计不吸烟aba+b吸烟cdc+d总计a+cb+da+b+c+da是事件 “不吸烟且不患肺癌”发生的频数.ABa+b是事件 “不吸烟”发生的频数.Aa+c是事件 “不患肺癌”发生的频数.B样本容量n=a+b+c+d()aP ABn频率近似于概率( )abP An( )acP Bn假设 :“吸烟与患肺癌没有关系”成立()( ) ( )P ABP A P B22+aaabadbcacabacadbc0adbcaabacnnn成立时,有:()aP ABn( )abP An( )acP Bn(+)()()ab cd aab acn a b c d 假设 :“吸烟与患
7、肺癌没有关系”成立()( ) ( )P ABP A P B 成立时,有:0adbc 越小“吸烟”与“患肺癌”之间关系越弱adbc 越大“吸烟”与“患肺癌”之间关系越强adbc建立统一标准22n adbcKabcdacbd构造一个随机变量2K0adbc假设 成立,即“吸烟与患肺癌没有关系”若假设 成立 的值应该很小 2K 问题5:在假设 成立的条件下, 的值应具有怎样的特点?2K建立统一标准22n adbcKabcdacbd 的值应该很小 假设 “吸烟与患肺癌没有关系”成立2K299657775 4942 209956.6327817 2148 9874 91k 的观测值2K问题6 大或者小的判
8、断标准该如何确定呢?2K建立统一标准第一行 为根据实际问题的需要,容许推断“两个分 类变量有关系”犯错误概率的上界.0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k20()P Kk说明:2K第二行 为随机变量的判断标准,即与“犯错概率的上界”对应的“临界值”.建立统一标准0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910
9、.8280k20()P Kk2K的“临界值”犯错误概率的上界假设 :吸烟与患肺癌没有关系.2(6.635)0.01P K假设 成立的条件下, 的值应该很小.2K56.6326.635k 的观测值 2K与假设 矛盾.假设 :“吸烟与患肺癌没有关系”不成立.原结论:“吸烟与患肺癌有关系” 成立.建立统一标准0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k20()P Kk犯错误概率的上界2K的“临界值”56.6326.635k 的观测值2K在犯错误的概率不
10、超过0.01的条件下,有99%的把握认为“吸烟与患肺癌有关系”.建立统一标准0.500.400.250.150.100.050.0250.0100.0050.0010.4550.7081.3232.0722.7063.8415.0246.6357.87910.8280k20()P Kk56.63210.828k 假设 不成立, 原结论:“吸烟与患肺癌有关系” 成立在犯错误的概率不超过0.001的条件下,有99.9%的把握认为“吸烟与患肺癌有关系”.问题7 能否在犯错误的概率不超过0.001的前提下认为吸烟与患肺癌有关系?2(10.828)0.001P K直观判断:吸烟与患肺癌有关.假设 :吸烟
11、与患肺癌没有关系.过程回顾构造一个随机变量 ,2K计算 的观测值约为56.632.2K由于容许犯错误概率的上界为0.01,确定 的临界值6.635.2K56.632 的观测值2K6.635远大于 .假设 不成立, 原结论成立. 该推断犯错误的概率不超过0.01.直观判断:两个分类变量X 和Y 有关系.假设 :两个分类变量X 和Y 没有关系.抽象概括计算 .若 成立,则 的观测值应该很小.2K2K 该推断犯错误的概率不超过 . 0kk若 ,则认为“两个分类变量X 和Y 有关系”.否则 ,认为“两个分类变量X 和Y 没有关系”.根据容许犯错误概率的上界 ,确定 的临界值 .2K0k抽象概括 上面这
12、种利用随机变量 来判断在多大程度上可以认为 “两个分类变量有关系”的方法,称为独立性检验.2K 给出了将 “两个分类变量没有关系”错判为“两 个分类变量有关系”的概率.优点(3) 通过独立性检验准确判断反证法原理独立性检验的原理目标假设推理成立的条件异同比较深化理解H H H0H H0H0H0H H0H2K0k0H H H0H0HH异同比较深化理解H H H0H H0H0H0H H0H2K0k0H H H0H0H相同点:不同点:基本思想类似:都是先假设结论不成立,然后根据是否能推出“矛盾”来断定结论是否成立.矛盾有区别:为证明 成立,反证法需要出现与 不相符合的逻辑矛盾;而独立性检验需要出现与
13、 不相符合的小概率事件.0H0HH不患肺癌 患肺癌总 计不吸烟7775427817吸烟2099492148总计987491996549100%2.28%214842100%0.54%7817判断“两个分类变量X 和Y有关系”方法总结列联表求频率比大小作判断步骤方法1 列联表方法2 绘等高条形图列联表求频率绘图形比高低作判断步骤判断“两个分类变量X 和Y 有关系” 方法总结(1)假设 :两个分类变量X 和Y 没有关系方法3 独立性检验0kk (4)作判断,若 ,则认为“两个分类变量 X 和Y 有关系.(2)根据容许犯错误概率的上界 ,确定 的临界值 .0k2K犯错概率不超过判断“两个分类变量X
14、和Y 有关系” 方法总结(3)比较随机变量 的观测值 与 的大小2K0kk画图引入指标 准确刻画2R“身高”可以解释64%“体重”变化引入随机变量 准确刻画2K99的把握认为“吸烟”和“患肺癌”有关数值变量和分类变量研究思路相通犯错概率不超过0.01列表列表画图问题8 本节课我们学习了哪些知识?体会到了怎样的思想方法?课堂小结知识方法1 通过列联表初步感知方法2 绘等高条形图直观判断列联表求频率比大小作判断列联表求频率绘图形比高低作判断课堂小结方法3 独立性检验准确判断方法确定犯错上界确定临界值 0k作判断比 大小0, kk反证法原理独立性检验的原理目标证明命题 检验判断 :“两个分类变量有关
15、系”假设假设 的否定命题 成立假设 的对立事件 成立推理若推导出与 不相符合的矛盾,则假设 错误,原命题 完全成立。若出现与 相矛盾的小概率事件,则假设 不成立,原结论 成立。成立的条件假设 下推导出矛盾发生了与 矛盾的小概率事件HHHHH0HH0H0H0H0H0H0HH H H0H H0H0H0H H0H2K0k0H H H0H0HH课堂小结3独立性检验的基本思想 思想0H有甲乙两个班级进行一门课程的考试,按照学生考试成绩优秀和不优秀统计成绩之后,得到如下列联表:请画出列联表的等高条形图,并通过图形判断成绩与班级是否有关系;根据列联表的独立性检验,能否在犯错误的概率不超过0.01的前提下认为成绩与班级有关?优秀 不优秀总 计甲班103545乙班73845总计177390课后作业