1、概率与统计小结(2)高二年级 数学本章所学习的统计方面的相关内容有:一、成对数据的统计相关性;二、一元线性回归模型;三、列联表.2 2一、成对数据的统计相关性一般地,如果收集到了变量 和变量 的 对数据(简称为成对数据),如下表所示.xyn序号i123n变量x变量y1x2x3xnx1y2y3yny一、成对数据的统计相关性则在平面直角坐标系 中描出点 ,就可以得到这 对数据的散点图.xOy(,),1,2,3,iix yinn如果由变量的成对数据、散点图或直观经验可知,变量 和变量 直接的关系可以近似用一次函数来刻画,则称两个变量线性相关.xy一、成对数据的统计相关性nxny此时,如果一个变量增大
2、,另一个变量大体上也增大,则称这两个变量正相关;如果一个变量增大,另一个变量大体上减少,则称这两个变量负相关.一、成对数据的统计相关性nxny相关系数:现实生活中的数据,由于度量对象和单位的不同等,数值会有大有小,为了去除这些因素的影响,统计学里一般用12211()()()()niiinniiiixxyyrxxyy1222211()()niiinniiiix ynx yxnxyny来衡量 与 的线性相关性强弱,称为相关系数.yxr二、一元线性回归模型回归直线方程:一般地,已知变量 与 的 对成对数据 .任意给定一个一次函数 ,对每一个已知的 ,由直线方程可以得到一个估计值 yybxaix,ii
3、ybxa二、一元线性回归模型ybxa如果一次函数 能使残差平方和即取得最小值,则 称为 关于 的回归直线方程(对应的直线称为回归直线).ybxayx因为是使得平方和最小,所以其中涉及的方法称为最小二乘法.222211221()()()()nnniiiyyyyyyyy二、一元线性回归模型可以证明,给定两个变量 与 的一组数据之后,回归直线总是存在的,而且yx其中,称为回归系数,也是回归直线方程的斜率.1122211()(),()nniiiiiinniiiixxyyx ynx ybxxxnx aybxb二、一元线性回归模型利用线性回归分析方法解决实际问题的基本步骤是:第一步,利用数据表格或散点图等
4、不同的方法,直观判断两个变量 与 之间是否具有线性相关关系;yx第二步,判断两个变量 与 之间可能具有线性相关关系后,通过计算相关系数,衡量两个变量 与 之间线性相关关系的强弱.yyxx二、一元线性回归模型利用线性回归分析习方法解决实际问题的基本步骤是:第三步,根据公式求出 关于 的回归直线方程;x第四步,依据回归直线做出统计推断或结果解释.y三、列联表 列联表:2222总计aba+bcdc+d总计a+cb+da+b+c+dAABB由此可得卡方的计算公式为:三、列联表22统计学中,常用的显著性水平 以及对应的分位数 如下表所示.k2()Pkk0.10.050.010.0050.0012.706
5、3.8416.6357.87910.828三、列联表22(1)绘制 列联表;2 2(2)计算卡方数值;(3)与显著性水平对应的分位数比较;(4)若 ,就称在犯错误的概率不超过 的前提下,可以认为A与B不独立,或者说有 的把握认为A与B有关;若 ,则说没有 的把握认为A与B有关.2k12k1利用 列联表解决独立性检验实际问题的基本步骤:2 2例 某电视台在一次对收看文艺节目和新闻节目观众的抽样调查中,随机抽取了100名电视观众,相关的数据如下表所示:典型例题(1)由表中数据分析,是否有95%的把握认为收看新闻节目的观众与年龄有关?文艺节目新闻节目20到40岁4018大于40岁1527分析:由表可
6、得:典型例题文艺节目新闻节目20到40岁4018大于40岁152740,a 18,b 15,c 27,d 100.n 解:根据题意可得,22100(402715 18)5545 584210.8823.841,所以有95%的把握认为收看新闻节目的观众与年龄有关.典型例题(2)用分层抽样的方法在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取几名?文艺节目新闻节目20到40岁4018大于40岁1527解:在收看新闻节目的观众中随机抽取5名,大于40岁的观众应该抽取2753.45所以应抽取3名观众.典型例题(3)在上述抽取的5名观众中任取2名,求恰有1名观众的年龄为20到40岁的概率.文
7、艺节目新闻节目20到40岁4018大于40岁1527解:由(2)得,5名观众中,有3名大于40岁的观众,有2名年龄为20到40岁的观众.设事件A为恰有1名观众的年龄为20到40岁.则1123253().5C CP AC3.5所以恰有1名观众的年龄为20到40岁的概率为例 已知 与 之间的几组数据如下表所示.典型例题假设根据上表数据所得线性回归直线方程为 ,若某同学根据上表中的前两组数据,求得一次函数表达式为 .判断 与 的相对大小,以及 与 的相对大小.xy123456021334xyyb xabbaa解:由已知可得:典型例题xy11010222443319344316125532515664
8、362421139158xy2xxy解:所以,典型例题713,26xy61622165,76iiiiix yxybxx1,3a 51,73yx又因为一次函数过点(1,0)和(2,2),可得2,b 2,a 所以,bb.aa例 某地近十年粮食需求量逐年上升,下表是部分统计数据.典型例题(1)利用所给数据求年需求量与年份之间的回归方程;年份x20122014201620182020需求量y/万吨236246257276286(2)利用(1)中所求出的线性回归方程预测该地2022年的粮食需求量.典型例题(1)利用所给数据求年需求量与年份之间的回归方程;年份x20122014201620182020需求
9、量y/万吨236246257276286解:根据所给的表格可知,用年份减去2016,得到-4,-2,0,2,4,需求量都减去257,得到-21,-11,0,19,29,这样对应的年份和需求量之间是一个线性关系.典型例题(1)利用所给数据求年需求量与年份之间的回归方程;年份x20122014201620182020需求量y/万吨236246257276286解:所以线性回归方程是2222(4)(24.2)(2)(14.2)+2 15.8+425.86.5,42024b 0,3.2,xy2576.5(2016)3.2,yx即6.512843.8.yx典型例题(2)利用(1)中所求出的线性回归方程预
10、测该地2022年的粮食需求量.年份x20122014201620182020需求量y/万吨236246257276286解:当 2022,x 6.5(20222016)260.2299.2,y 所以预测该地2022年的粮食需求量是299.2万吨.例 某高校共有15000人,其中男生10500人,女生4500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均运动时间的样本数据(单位:h).典型例题(1)应收集多少位女生样本数据?解:应收集 位女生样本数据.45003009015000典型例题(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分
11、布直方图如图所示.其中样本数据分组区间为:0,2,(2,4,(4,6,(6,8,(8,10,(10,12.估计该校学生每周平均体育运动时间超过4h的概率.解:该校学生每周平均体育运动时间超过4h的概率为1(0.0250.100)20.75.P 典型例题(3)在样本数据中,有60位女生的每周平均体育运动时间超过4h.请制作每周平均体育运动时间与性别的 列联表,并判断是否有95%的把握认为该校学生的每周平均体育运动时间与性别有关.解:由(2)得,该校学生每周平均体育运动时间超过4h的人数为:3000.75225.所以该校有60名女生每周平均体育运动时间超过4h,有165名男生每周平均体育运动时间超
12、过4h.典型例题(3)在样本数据中,有60位女生的每周平均体育运动时间超过4h.请制作每周平均体育运动时间与性别的 列联表,并判断是否有95%的把握认为该校学生的每周平均体育运动时间与性别有关.解:所以根据题意可列出 列联表如下超过4小时不超过4小时总计男16545210女603090总计22575300典型例题(3)在样本数据中,有60位女生的每周平均体育运动时间超过4h.请制作每周平均体育运动时间与性别的 列联表,并判断是否有95%的把握认为该校学生的每周平均体育运动时间与性别有关.解:所以可得:所以有95%的把握认为该校学生的每周平均体育运动时间与性别有关.22(165 306045)3
13、00100=4.763.841.225 75210 90211.一元线性回归模型2.独立性检验课堂小结教材第118页习题4-3B第4题4.某工厂有25周岁及以上的工人300名,25周岁以下的工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁及以上”和“25周岁以下”分为两组,再将两组工人的日平均课后作业教材第118页习题4-3B第4题生产件数分成5组:50,60),60,70),70,80),80,90),90,100),分别加以统计,得到如图所示的频率分布直方图.课后作业教材第118页习题4-3B第4题(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下”的工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件列出 列联表,并判断是否有90%的把握认为生产能手与工人所在的年龄组有关.课后作业教材第124页A组第11题11.在调查男女学生购买食品时是否阅读营养成分说明时,调查了36位男生、38位女生,而且阅读营养成分的人有46位,阅读营养成分的人中有28位女生.用 列联表表示上述数据.课后作业谢谢