1、人 教 A 版 高 中 数 学 必 修 第 二 册9.2 用样本估计总体用样本估计总体 9.2.3 总体集中趋势的估计总体集中趋势的估计温故知新温故知新 一般地,一组数据的第一般地,一组数据的第 p 百分位数是这样一百分位数是这样一个值,个值, 它使得这组数据中至少它使得这组数据中至少 有有 p% 的数据小的数据小于于 或等于这个值,且至少有或等于这个值,且至少有 (100-p)%的数据大于的数据大于或等于这个值或等于这个值.百分位数定义:百分位数定义:备注:备注: 求百分位数时,一定要将数据按照从小到大求百分位数时,一定要将数据按照从小到大的顺序排列的顺序排列温故知新温故知新 计算一组计算一
2、组 n n 个数据的第个数据的第p p百分位数的步骤:百分位数的步骤:第第1 1步,按从小到大排列原始数据步,按从小到大排列原始数据; ;第第2 2步,计算步,计算 i =ni =nP P; ;第第3 3步,步, 若若 i i 不是整数,而大于不是整数,而大于 i i 的比邻整的比邻整数为数为 j , j , 则第则第p p百分位数为第百分位数为第 j j 项数据项数据; ; 若若 i i 是整数,则第是整数,则第p p百分位数为第百分位数为第 i i 项与第项与第 (i +1) (i +1) 项数据的平均数项数据的平均数. .课堂引入课堂引入 为了了解总体的情况,前面我们研究了如何通过样本为
3、了了解总体的情况,前面我们研究了如何通过样本的分布规律估计总体的分布规律。但有时候,我们可能不的分布规律估计总体的分布规律。但有时候,我们可能不太关心总体的分布规律,而更关注总体取值在某一方面的太关心总体的分布规律,而更关注总体取值在某一方面的特征。例如,对于某县今年小麦的收成情况,我们可能会特征。例如,对于某县今年小麦的收成情况,我们可能会更关注该县今年小麦的总产量或平均每公顷的产量,而不更关注该县今年小麦的总产量或平均每公顷的产量,而不是产量的分布;对于一个国家国民的身高情况,我们可能是产量的分布;对于一个国家国民的身高情况,我们可能会更关注身高的平均数或中位数,而不是身高的分布;等会更关
4、注身高的平均数或中位数,而不是身高的分布;等等。等。 在初中的学习中我们已经了解到,平均数、中位数和众在初中的学习中我们已经了解到,平均数、中位数和众数等都是刻画数等都是刻画“中心位置中心位置”的量,它们从不同角度刻画了一的量,它们从不同角度刻画了一组数据的集中趋势。组数据的集中趋势。三数概念三数概念1、众数众数 在一组数据中,出现次数最多在一组数据中,出现次数最多的数据叫做这一组数据的众数。的数据叫做这一组数据的众数。2、中位数中位数 将一组数据按大小依次排列,将一组数据按大小依次排列,把处在最中间位置的一个数据(或两个数把处在最中间位置的一个数据(或两个数据的平均数)叫做这组数据的中位数。
5、据的平均数)叫做这组数据的中位数。3、平均数平均数 一组数据的总和除以数据的个一组数据的总和除以数据的个数所得的值。数所得的值。温故知新温故知新 课堂典例课堂典例例例4、利用利用9.2.19.2.1节中节中100100户居民用户的月均用水量户居民用户的月均用水量的调查数据的调查数据, ,计算样本数据的平均数和中位数计算样本数据的平均数和中位数, ,并据并据此估计全市居民用户月均用水量的平均数和中位数此估计全市居民用户月均用水量的平均数和中位数. .9.0 13.6 14.9 5.9 4.0 7.1 6.4 5.4 19.4 2.02.2 8.6 13.8 5.4 10.2 4.9 6.8 14
6、.0 2.0 10.52.1 5.7 5.1 61.8 6.0 11.1 1.3 11.2 7.7 4.92.3 10.0 16.7 12.0 12.4 7.8 5.2 13.6 2.6 22.43.6 7.1 8.8 25.6 3.2 18.3 5.1 2.0 3.0 12.022.2 10.0 5.5 2.0 24.3 9.9 3.6 5.6 4.4 7.95.1 24.5 6.4 7.5 4.7 20.5 5.5 15.7 2.6 5.75.5 6.0 16.0 2.4 9.5 3.7 17.0 3.8 4.1 2.35.3 7.8 8.1 4.3 13.3 6.8 1.3 7.0 4.
7、9 1.87.1 28.0 10.2 13.8 17.9 10.1 5.5 4.6 3.2 21.6 假设通过简单随机抽样,获得了100户居民用户的月均用水量数据(单位:t): 解:由样本平均数的定义,可得解:由样本平均数的定义,可得即即100户居民的月均用水量的平均数为户居民的月均用水量的平均数为8.79t.由中位数的定义,可得由中位数的定义,可得即即100户居民的月均用水量的中位数为户居民的月均用水量的中位数为6.6t.因为数据是抽自全市居民户的简单随机样本,所以因为数据是抽自全市居民户的简单随机样本,所以我们可以据此估计全市居民的月均用水量约为我们可以据此估计全市居民的月均用水量约为8.
8、79t,其中位数约为,其中位数约为6.6t.课堂典例课堂典例课堂探究课堂探究 思考:思考:小明用统计软件计算了小明用统计软件计算了100 户居民月用水量户居民月用水量的平均数和中位数,但录入数据时把一个数据的平均数和中位数,但录入数据时把一个数据7.7录录成了成了77.请计算录入数据的平均数和中位数,并与真请计算录入数据的平均数和中位数,并与真实的样本平均数和中位数作比较实的样本平均数和中位数作比较.哪个量的值变化更哪个量的值变化更大?你能解释其中的原因吗?大?你能解释其中的原因吗? 通过计算可以发现:平均数由通过计算可以发现:平均数由8.79t变为变为9.483t,中位数没有变化,中位数没有
9、变化,还是还是6.6t. 这是因为样本平均数与每一个样本数据有关,样本中这是因为样本平均数与每一个样本数据有关,样本中的任何一个数据的改变都会引起平均数的改变;但中位数的任何一个数据的改变都会引起平均数的改变;但中位数只利用了样本数据中间位置的一个或两个值,并未利用其只利用了样本数据中间位置的一个或两个值,并未利用其他数据,所以不是任何一个样本数据的改变都会引起中位他数据,所以不是任何一个样本数据的改变都会引起中位数的改变数的改变.因此,因此,与中位数比较,平均数反映出样本数据与中位数比较,平均数反映出样本数据中的更多信息,对样本中的极端值更加敏感。中的更多信息,对样本中的极端值更加敏感。引入
10、新课引入新课 平均数和中位数都描述了数据的集中趋势,它们的平均数和中位数都描述了数据的集中趋势,它们的大小关系和数据分布的形态有关。在下图的三种分布形大小关系和数据分布的形态有关。在下图的三种分布形态中,平均数和中位数的大小存在什么关系?态中,平均数和中位数的大小存在什么关系?一般来说,对一个单峰的频率分布直方图来说,如果一般来说,对一个单峰的频率分布直方图来说,如果直方图的形状是对称的(图(直方图的形状是对称的(图(1),那么平均数和中),那么平均数和中位数应该大体上差不多;如果直方图在右边位数应该大体上差不多;如果直方图在右边“拖尾拖尾” (图(图(2),那么平均数大于中位数;如果直方图在
11、),那么平均数大于中位数;如果直方图在左边左边“拖尾拖尾” (图(图(3) ,那么平均数小于中位数,那么平均数小于中位数.也就是说,和中位数相比,平均数总是在也就是说,和中位数相比,平均数总是在“长尾巴长尾巴”那边那边.引入新课引入新课 例例5.5.某学校要定制高一年级的校服,学生根据厂家提供某学校要定制高一年级的校服,学生根据厂家提供的参考身高选择校服规格的参考身高选择校服规格. .据统计,高一年级女生需要不据统计,高一年级女生需要不同规格校服的频数如下表所示同规格校服的频数如下表所示如果用一个量来代表该校高一年级女生所需校服的规如果用一个量来代表该校高一年级女生所需校服的规格,那么在中位数
12、、平均数和众数中,哪个量比较合格,那么在中位数、平均数和众数中,哪个量比较合适适? ?试讨论用上表中的数据估计全国高一年级女生校服试讨论用上表中的数据估计全国高一年级女生校服规格的合理性规格的合理性. .校服规格155160165170175合计频数39641679026386课堂典例课堂典例 解解: :为了更直观地观察数据的特征,我们用条形图表示为了更直观地观察数据的特征,我们用条形图表示表中的数据表中的数据( (如下图如下图).).由于全国各地的高一年级女生的身高存在一定的差异,所以用由于全国各地的高一年级女生的身高存在一定的差异,所以用一个学校的数据估计全国高一年级女生的校服规格不合理一
13、个学校的数据估计全国高一年级女生的校服规格不合理. .可以发现,选择校服规格为可以发现,选择校服规格为“165”165”的女生的频数最高,的女生的频数最高,所以用众数所以用众数165165作为该校高一年级女生校服的规格比较作为该校高一年级女生校服的规格比较合适合适. .课堂典例课堂典例 引入新知引入新知 众数众数只利用了出现次数最多的那个值的信息只利用了出现次数最多的那个值的信息. .众数众数只能告诉我们它比其他值出现的次数多只能告诉我们它比其他值出现的次数多, ,但并未告诉我但并未告诉我们它比别的数值多的程度们它比别的数值多的程度. .因此,众数只能传递数据中因此,众数只能传递数据中的信息的
14、很少的一部分,对极端值也不敏感的信息的很少的一部分,对极端值也不敏感. . 一般地,对数值型数据(如用水量、身高、收一般地,对数值型数据(如用水量、身高、收入、产量等)集中趋势的描述,可以用平均数、中入、产量等)集中趋势的描述,可以用平均数、中位数;而对分类型数据(如校服规格、性别、产品位数;而对分类型数据(如校服规格、性别、产品质量等级等)集中趋势的描述,可以用众数质量等级等)集中趋势的描述,可以用众数. .提出问题提出问题 如何由频率分布直方图估计平均数、众数、中位数?如何由频率分布直方图估计平均数、众数、中位数?在频率分布直方图中,我们无法知道每个在频率分布直方图中,我们无法知道每个组内
15、的数据是如何分布的组内的数据是如何分布的. .此时,通常假此时,通常假设它们在组内均匀分布设它们在组内均匀分布. .引入新知引入新知 样本平均数可以表示为数据与它的频率的乘积之和样本平均数可以表示为数据与它的频率的乘积之和. .所以样本平均数可以用每个小矩形底边中点的横坐所以样本平均数可以用每个小矩形底边中点的横坐标与小矩形的面积的乘积之和近似代替标与小矩形的面积的乘积之和近似代替. .于是于是平均数的近似值平均数的近似值为为这个结果与根据原始这个结果与根据原始数据计算的样本平均数据计算的样本平均数数8.798.79相差不大相差不大. .1.24.24.27.225.228.20.077 3
16、()0.107 3 ()0.007 3 ()8.96222 96. 8(1)(1)如何估计平均数?如何估计平均数?根据中位数的意义,在样本中,有根据中位数的意义,在样本中,有5050的个体小于或等的个体小于或等于中位数,也有于中位数,也有5050的个体大于或等于中位数的个体大于或等于中位数. .因此,在因此,在频率分布直方图中,频率分布直方图中,中位数中位数左边和右边的直方图的面积左边和右边的直方图的面积应该相等应该相等. .6.71552. 03)107. 0077. 0( ,231. 03077. 0因此中位数落在区间因此中位数落在区间 内。内。设中位数是设中位数是 ,由,由这个结果与根据
17、这个结果与根据原始数据求得的原始数据求得的中位数中位数6.6相差不相差不大大.(2)(2)如何估计中位数?如何估计中位数?引入新知引入新知 在频率分布直方图中,月均用水量在区间在频率分布直方图中,月均用水量在区间 内的居民最内的居民最多,可以将这个区间的中点多,可以将这个区间的中点5.7作为众数的估计值作为众数的估计值.5.7众数常用在描述分类型数据中,众数众数常用在描述分类型数据中,众数5.75.7让我们知道月均用让我们知道月均用水量在区间水量在区间 的居民用户最多的居民用户最多. .这个信息具有实际意这个信息具有实际意义。义。 (3)(3)如何估计众数?如何估计众数?引入新知引入新知 从频
18、率分布直方图中找众数、中位数、平均数从频率分布直方图中找众数、中位数、平均数众数:众数: 最高矩形的中点最高矩形的中点 优点:反映样本数据的最大集合点优点:反映样本数据的最大集合点 缺点:忽视了其他数据,无法客观的反映总体特征缺点:忽视了其他数据,无法客观的反映总体特征中位数:中位数左边的直方图面积和右边的直方图面积相等中位数:中位数左边的直方图面积和右边的直方图面积相等 优点:不受少数几个极端值的影响优点:不受少数几个极端值的影响 缺点:不受少数几个极端值的影响缺点:不受少数几个极端值的影响 平均数:直方图的平均数:直方图的“重心重心” 优点:优点:和每一个样本数据都有关,可以放映更多的关于
19、样本数据的信息和每一个样本数据都有关,可以放映更多的关于样本数据的信息 缺点:离平均数越远的数据对平均数影响越大缺点:离平均数越远的数据对平均数影响越大(可靠性低可靠性低)引入新知引入新知 提出问题提出问题 以上我们讨论了平均数、中位数和众数等特征量在刻以上我们讨论了平均数、中位数和众数等特征量在刻画一组数据的集中趋势时的各自特点。并研究了用样本的画一组数据的集中趋势时的各自特点。并研究了用样本的特征量估计总体的特征量的方法。需要注意的是,这些特特征量估计总体的特征量的方法。需要注意的是,这些特征量有时也会被利用而产生误导。征量有时也会被利用而产生误导。例如,假设你到人力市场去找工作,有一个企
20、业老板告例如,假设你到人力市场去找工作,有一个企业老板告诉你,诉你,“我们企业员工的年平均收入是我们企业员工的年平均收入是20万元万元”,你该,你该如何理解这句话?如何理解这句话?解决问题解决问题 这句话是真实的,但它可能描述的是差异巨大的实际这句话是真实的,但它可能描述的是差异巨大的实际情况。情况。 例如,可能这个企业的工资水平普遍较高,也就是员例如,可能这个企业的工资水平普遍较高,也就是员工年收入的中位数、众数和平均数差不多;也可能是绝大工年收入的中位数、众数和平均数差不多;也可能是绝大多数员工的年收入较低(如大多数是多数员工的年收入较低(如大多数是5万元左右),而少万元左右),而少数员工
21、的年收入很高,甚至达到数员工的年收入很高,甚至达到100万元,在这种情况下万元,在这种情况下年收入的平均数就比中位数大很多。尽管在后一种情况下,年收入的平均数就比中位数大很多。尽管在后一种情况下,用中位数或众数比用平均数更合理些,但这个企业的老板用中位数或众数比用平均数更合理些,但这个企业的老板为了招揽员工,却用了平均数。为了招揽员工,却用了平均数。所以,我们强调所以,我们强调“用数据说话用数据说话”,但同时又要防止,但同时又要防止被数据误导,这就需要掌握更多的统计知识和方法被数据误导,这就需要掌握更多的统计知识和方法. 把一组数据按大小顺序排列把一组数据按大小顺序排列, ,处在最中间的一个数
22、据处在最中间的一个数据( (或两个数据的平均数或两个数据的平均数); ); 从频率分布直方图中估计中位数左从频率分布直方图中估计中位数左右两边的直方图的面积相等右两边的直方图的面积相等. . 一组数据中重复出现次数最多的数一组数据中重复出现次数最多的数; ; 从频率分布直方从频率分布直方图图 中估计众数是最高的矩形的中点中估计众数是最高的矩形的中点. .1.众数2中位数3平均数如果有如果有n n个数据个数据 那么这那么这n n个数的平均数个数的平均数,21nxxx121()nxxxxn 也可以从频率分布直方图中估计平均数也可以从频率分布直方图中估计平均数, ,平均数的估计值等平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中的于频率分布直方图中每个小矩形的面积乘以小矩形底边中的横坐标之和横坐标之和. .课堂小结课堂小结