第1章-非参数统计概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第1章-非参数统计概述课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计 概述 课件
- 资源描述:
-
1、非参数统计非参数统计吕光明吕光明WELCOME TO NONPARAMETRIC STATISTICS教科书 易丹辉、董寒青,易丹辉、董寒青,非参数统计:方法与非参数统计:方法与应用应用,中国统计出版社,中国统计出版社2009年版。年版。其他参考书其他参考书1.吴喜之吴喜之,非参数统计非参数统计,中国统计出,中国统计出版社版社2006年第年第2版版。2.希尔德布兰德等,希尔德布兰德等,社会统计方法与技社会统计方法与技术术,社会科学文献出版社,社会科学文献出版社2005年版。年版。3.王星,王星,非参数统计非参数统计,清华大学出版,清华大学出版社社2009年版。年版。先修课先修课最好熟练掌握以下
2、课程:最好熟练掌握以下课程: 统计学统计学 、 经济学经济学、高等数学高等数学、概率论与数理统计概率论与数理统计、抽样理论与方抽样理论与方法法等。等。1 导论1.1 1.1 测量的层次(数据的计量尺度)测量的层次(数据的计量尺度)1.2 1.2 统计检验统计检验1.3 1.3 参数统计参数统计1.4 1.4 非参数统计非参数统计1.1 1.1 测量的层次(数据的计量尺度)测量的层次(数据的计量尺度)定类尺度定类尺度定序尺度定序尺度定距尺度定距尺度定比尺度定比尺度精精确确程程度度良好良好19801980141141公斤公斤休斯顿火箭休斯顿火箭俱乐部俱乐部:健康状况健康状况:出生年份出生年份:体重
3、体重:1 1、定类尺度、定类尺度 (Nominal ScaleNominal Scale)p例如:性别、民族、职业例如:性别、民族、职业p数据表现为数据表现为“类别类别” p各类之间无等级次序各类之间无等级次序 p各类别可以用数字代码表示各类别可以用数字代码表示p根据定类尺度得到的数据为分类根据定类尺度得到的数据为分类数据。数据。定类尺度实例定类尺度实例编码意见男 女同意不同意人 种白 黄 棕 黑1234定类尺度数据没有顺序和大小区别定类尺度数据没有顺序和大小区别2 2、定序尺度(、定序尺度(Ordinal ScaleOrdinal Scale)p例如健康状况、质量等级、教育程度例如健康状况、
4、质量等级、教育程度p数据表现为数据表现为“类别类别”,有顺序差异,有顺序差异p可对等级、大小等排序可对等级、大小等排序p未测量出类别之间的准确差值未测量出类别之间的准确差值p根据定序尺度得到的数据为顺序数据。根据定序尺度得到的数据为顺序数据。定序尺度实例定序尺度实例编码编码定序尺度数据不能测量差别的多定序尺度数据不能测量差别的多少少产品等级一等品一等品二等品二等品三等品三等品123对事物的态度很满意很满意满满 意意中中 立立不满意不满意反反 对对123453 3、定距尺度、定距尺度 Interval ScaleInterval Scalep例如年份、摄氏温度、海拔、时钟、智商得分例如年份、摄氏
5、温度、海拔、时钟、智商得分p数据表现为数据表现为“数值数值”,且有计量单位,且有计量单位p可以进行加减运算可以进行加减运算p“0 0”是只是尺度上的一个点,不代表是只是尺度上的一个点,不代表“不存在不存在”p根据定距尺度得到的数据为间距数据。根据定距尺度得到的数据为间距数据。定距尺度实例定距尺度实例4 4、定比尺度、定比尺度 Ratio ScaleRatio Scalep例如体重、身高例如体重、身高p数据表现为数据表现为“数值数值”p可以进行加减、乘除运算可以进行加减、乘除运算p“0 0”表示表示“没有没有”或或“不存在不存在”p根据定比尺度得到的数据为比率根据定比尺度得到的数据为比率数据。数
6、据。定比尺度实例定比尺度实例定比尺度数据可以计算比值定比尺度数据可以计算比值6枚枚3枚枚定距尺度与定比尺度的区别定距尺度与定比尺度的区别p定距尺度中定距尺度中“0 0”表示一个具体数值,不表示表示一个具体数值,不表示“没有没有”或或“不存在不存在”,定比尺度中,定比尺度中“0 0”表示表示“没有或一无所没有或一无所有有”、“不存在不存在” 。p5 5(F- 50F- 50)= 9(C-10= 9(C-10) ) 摄氏与华氏温度转换摄氏与华氏温度转换定距尺度- 273.15 -123.15 0 26.85定比尺度 0K 150K 300K四种计量尺度的比较四种计量尺度的比较p1 1、四种尺度所包
7、含的信息量是依次递增的,级别由、四种尺度所包含的信息量是依次递增的,级别由低到高。低到高。p2 2、根据较高层次的计量尺度可以获得较低层次的计、根据较高层次的计量尺度可以获得较低层次的计量尺度。量尺度。p3 3、不同的尺度数据对应这不同数据显示方法和分析、不同的尺度数据对应这不同数据显示方法和分析方法。方法。测量测量精度精度计算计算方法方法信息信息数量数量某甲某某甲某乙的生乙的生命现象命现象甲、乙有生命甲、乙有生命很低很低不能计算,不能计算,只能判断只能判断、甲、乙有生命甲、乙有生命定类测量定类测量甲为中年人,乙甲为中年人,乙为少年人。为少年人。较低较低、 、 、 、+ 、甲、乙有生命甲、乙有
8、生命甲生命时间较乙长甲生命时间较乙长甲比乙大甲比乙大4545岁岁甲年龄约为乙的甲年龄约为乙的3 3倍倍定比测量定比测量典型的数据分析方法(部分)典型的数据分析方法(部分)集中趋势集中趋势离散趋势离散趋势相关回归相关回归假设检验假设检验众众数数定类变量定类变量品质相关品质相关Q检验检验异众比异众比中位数中位数等级相关等级相关异众比异众比 2检验检验定序变量定序变量均值均值相关回归相关回归标准差标准差Z、t检验检验定距变量定距变量均值均值相关回归相关回归标准差标准差Z、t检验检验定比变量定比变量非参数统计非参数统计参数统计参数统计1.2 1.2 统计检验(参数的假设检验)统计检验(参数的假设检验)
9、 1.基本思想基本思想 2.零假设和备择假设零假设和备择假设 3.两类错误两类错误 4.假设检验的基本步骤假设检验的基本步骤1.假设检验的基本思想小概率原理小概率原理如果对总体的某种假设是真实的,那么不如果对总体的某种假设是真实的,那么不利于或不支持这一假设的事件利于或不支持这一假设的事件A(小概率事(小概率事件)在一次试验中几乎不可能发生;如果件)在一次试验中几乎不可能发生;如果在一次试验中在一次试验中A竟然发生了,就有理由怀疑竟然发生了,就有理由怀疑该假设的真实性,拒绝这一假设。该假设的真实性,拒绝这一假设。假设检验的推断类似于反证法。假设检验的推断类似于反证法。分析:分析:若假设引例若假
10、设引例3中次品率中次品率4,则事件,则事件“抽取抽取10件产品有件产品有4件次品件次品”发生的概率为:发生的概率为: 00042. 004. 0104. 0464410CXP 只有万分之四可能的事件在一次试验中居然只有万分之四可能的事件在一次试验中居然发生了,这是不合理的,因而假设发生了,这是不合理的,因而假设P4是不是不能成立的,故按质检部门的规定,该批产品能成立的,故按质检部门的规定,该批产品不能出厂。不能出厂。xnxxnqpCxXP)(二项分布二项分布2. 原假设与备择假设原假设原假设备择假设备择假设又称又称零假设零假设,指正在被检验,指正在被检验的假设,记为的假设,记为 0H指拒绝原假
11、设后打算要接受指拒绝原假设后打算要接受的假设,记为的假设,记为 1H基本形基本形式式双侧检验双侧检验单侧检验单侧检验右侧检验右侧检验左侧检验左侧检验p检验假设是设的总体而不是样本。检验假设是设的总体而不是样本。p零假设和备择假设是互斥的,它们中零假设和备择假设是互斥的,它们中仅有一个正确;等号必须出现在零假仅有一个正确;等号必须出现在零假设中;设中;p最常用的有三种情况:双侧检验、左最常用的有三种情况:双侧检验、左侧检验和右侧检验。侧检验和右侧检验。双侧检验双侧检验左侧检验左侧检验右侧检验右侧检验H0m m = m m0 0m m m m0 0m m m m0 0H1m m m m0 0m m
12、 m m0 0p检验时,假定零假设为真,构造检验统计量、检验时,假定零假设为真,构造检验统计量、拒绝域和接受域。拒绝域和接受域。p检验统计量:我们用来决策(拒绝或不能拒绝检验统计量:我们用来决策(拒绝或不能拒绝零假设)时依据的样本统计量。不同的总体参零假设)时依据的样本统计量。不同的总体参数适用的检验统计量不同。数适用的检验统计量不同。p拒绝域和接受域:检验统计量取值的集合称为拒绝域和接受域:检验统计量取值的集合称为拒绝域,当根据样本得到的检验统计量的值属拒绝域,当根据样本得到的检验统计量的值属于该集合时,拒绝零假设。不能拒绝零假设的于该集合时,拒绝零假设。不能拒绝零假设的检验统计量取值的集合
13、称为接受域;检验统计量取值的集合称为接受域;p划分拒绝域和接受域的数值称为临界值。划分拒绝域和接受域的数值称为临界值。 双侧检验的形式双侧检验的形式0100:mmmmHH【例例】某生产线出产的产品单位重量正常某生产线出产的产品单位重量正常水平应为水平应为100克,某日随机抽查克,某日随机抽查100个产品,个产品,测得其平均重量为测得其平均重量为101.5克,标准差为克,标准差为8克。克。这个抽查结果是否意味着生产过程处于失这个抽查结果是否意味着生产过程处于失控状态?控状态?H0:m m = 100H1:m m100拒绝域和接受域(双侧检验)概率概率 /2 概率(概率( 1- )接受域接受域拒绝
14、域拒绝域概率概率 /2 拒绝域拒绝域假设的总体假设的总体抽样分布抽样分布右侧检验的形式右侧检验的形式0100:mmmmHH【例例】某型号汽车每升汽油平均行驶里程为某型号汽车每升汽油平均行驶里程为10公里。生产厂家研制了一种新型汽化器以公里。生产厂家研制了一种新型汽化器以求提高燃料效率。目前正在进行行驶实验,求提高燃料效率。目前正在进行行驶实验,以求通过实验证明新型汽化器可以提高燃料以求通过实验证明新型汽化器可以提高燃料效率。效率。H0:m m 10H1:m m 10拒绝域和接受域(右侧检验)拒绝域和接受域(右侧检验)概率概率 概率(概率( 1- )接受域接受域拒绝域拒绝域假设的总体假设的总体抽
15、样分布抽样分布左侧检验的形式左侧检验的形式0100:mmmmHH【例例】某品牌方便面包装袋上标明,其油炸某品牌方便面包装袋上标明,其油炸面饼的重量不少于面饼的重量不少于 100 克。现通过抽取的样克。现通过抽取的样本,实际称量面饼重量,检验生产厂家的说本,实际称量面饼重量,检验生产厂家的说明是否有效。明是否有效。H0:m m 100H1:m m 24,因此零假设和备择假设因此零假设和备择假设的选择为:的选择为: mm24 mm24思考题 哲学上,可以说哲学上,可以说“接受接受”和和“拒绝拒绝”两个概两个概念对称的,那么,在统计实践中,零假设和备择念对称的,那么,在统计实践中,零假设和备择假设对
16、称吗?假设对称吗?p统计上两者不对称,显著性检验的主要目的是拒统计上两者不对称,显著性检验的主要目的是拒绝零假设。绝零假设。p这与科学领域的理论发展类似这与科学领域的理论发展类似p物理上物理上 日心说日心说牛顿定律牛顿定律相对论。相对论。第一类错误第一类错误指拒绝了一个本来是真实的指拒绝了一个本来是真实的原假设,又称为原假设,又称为“弃真弃真”错错误或误或“拒真拒真”错误错误犯第一类错误的概率为假设检验的显著性犯第一类错误的概率为假设检验的显著性水平水平 ,即,即 3、两类错误与显著性水平、两类错误与显著性水平00/PHH拒 绝为 真通常通常 取取0.01,0.05,0.1。根据。根据 确定检
17、验统计量确定检验统计量的临界值,从而进一步根据样本观测值和临界的临界值,从而进一步根据样本观测值和临界值得出检验结论。值得出检验结论。双侧检验时双侧检验时概率概率 /2 概率(概率( 1- )拒绝域拒绝域概率概率 /2 拒绝域拒绝域接受域接受域犯第一类错犯第一类错误的概率误的概率 左侧检验时左侧检验时概率概率 概率(概率( 1- )犯第一类错犯第一类错误的概率误的概率 拒绝域拒绝域右侧检验时右侧检验时概率概率 概率(概率( 1- )拒绝域拒绝域犯第一类错犯第一类错误的概率误的概率 第二类错误第二类错误指接受了一个本来是不真实指接受了一个本来是不真实的原假设,又称为的原假设,又称为“采伪采伪”错
18、误或错误或“取伪取伪”错误错误记犯第二类错误的概率为记犯第二类错误的概率为 ,即,即00/PHH接受为不真 1- 为该检验检验不真实零假设的为该检验检验不真实零假设的检验功效,又称检验效能(检验功效,又称检验效能(power of a test)/把握度:把握度: 其意义是:当两总体确有差别,其意义是:当两总体确有差别,按规定的检验水准按规定的检验水准 a 能发现该差别的能发现该差别的能力(概率)。能力(概率)。 例如例如1- =0.90,即说明,即说明H0不成立,不成立,则理论上每则理论上每100次检验中,在次检验中,在的水准的水准上,平均有上,平均有90次能拒绝次能拒绝H0(能认为有(能认
19、为有统计学意义)。统计学意义)。 接受接受区域区域假设的总体假设的总体抽样分布抽样分布实际的总体实际的总体抽样分布抽样分布样本均值落在此区间,原样本均值落在此区间,原假设便不能被拒绝假设便不能被拒绝犯第二类错犯第二类错误的概率误的概率 m mam mbZ以左侧检验为例以左侧检验为例接受接受区域区域m mam mb实际的总体抽样分布越接近实际的总体抽样分布越接近假设的总体抽样分布,犯第假设的总体抽样分布,犯第二类错误的可能性就越大二类错误的可能性就越大假设的总体假设的总体抽样分布抽样分布实际的总体实际的总体抽样分布抽样分布Z以左侧检验为例以左侧检验为例接受接受区域区域m mam mb假设的总体假
20、设的总体抽样分布抽样分布实际的总体实际的总体抽样分布抽样分布在样本容量一定的情况下,增大犯第一类错误在样本容量一定的情况下,增大犯第一类错误的概率,则可以缩小犯第二类错误的概率,但的概率,则可以缩小犯第二类错误的概率,但不可能两个概率同时减少。不可能两个概率同时减少。Z以左侧检验为例以左侧检验为例希望所用的检验方法尽量少犯错误,但不能完希望所用的检验方法尽量少犯错误,但不能完全排除犯错误的可能性。理想的检验方法应使全排除犯错误的可能性。理想的检验方法应使犯两类错误的概率都很小,但在样本的容量给犯两类错误的概率都很小,但在样本的容量给定的情形下,不可能使两者都很小,降低一个定的情形下,不可能使两
21、者都很小,降低一个,往往使另一个增大。,往往使另一个增大。 与与 的反向关系m ma- Z m mbm mbm mb ?当实际分布当实际分布的均值为未知时,的均值为未知时,无法计算出犯第二无法计算出犯第二类错误的概率。因类错误的概率。因此,我们通常只控此,我们通常只控制犯第一类错误的制犯第一类错误的概率。概率。假设的总体假设的总体抽样分布抽样分布以左侧检验为例以左侧检验为例找一个不犯找一个不犯错误错误的检验!?的检验!?控制两种错误概率的方法:增加样本量和控制两种错误概率的方法:增加样本量和N-P原则原则。N-P原则:原则:控制犯第一类错误的概率不超过控制犯第一类错误的概率不超过 。显著水平:
22、犯第一类错误的最大概率。显著水平:犯第一类错误的最大概率。 Neymann-Pearson原则原则 两类错误总结两类错误总结结论正确(功效)结论正确(功效)H1 为真为真拒绝拒绝 H0结论正确结论正确不能拒绝不能拒绝 H0H0 为真为真总体实际情况总体实际情况结论结论例例1 某厂生产的螺钉某厂生产的螺钉, ,按标准强度为按标准强度为6868克克/mm/mm2 2, , 而实际生产的螺钉强度而实际生产的螺钉强度 X X 服从服从 N N ( ( m m ,3.6 ,3.6 2 2 ). ). 若若 E E ( ( X X ) = ) = m m = 68, = 68, 则认为这批螺钉符合要则认为
23、这批螺钉符合要求求, ,否则认为不符合要求否则认为不符合要求. .为此提出如下假设为此提出如下假设: :H0 : m m = 68 称为称为原假设原假设或或零假设零假设 原假设的对立面原假设的对立面: :H1 : m m 68 称为称为备择假设备择假设现从该厂生产的螺钉中抽取容量为现从该厂生产的螺钉中抽取容量为 36 36 的样本的样本, , 其样本均值为其样本均值为 , ,问原假设是否正确问原假设是否正确? ?5 .68x 犯第一类错误的概率犯第一类错误的概率 = =P P( (拒绝拒绝H H0 0| |H H0 0为真为真) )若若H H0 0为真为真, , 则则 )366 . 3,68(
24、2NX所以所以, ,拒绝拒绝 H H0 0 的概率为的概率为 , , 又称为又称为显著性显著性水平水平, 越大越大, ,犯第一类错误的概率越大犯第一类错误的概率越大, , 即即越显著越显著. .例例1 中中)18.69824.66(XXPH H0 0 不真不真, ,即即 m m 68, 68, m m可能小于可能小于68,68,也可能大也可能大于于68, 68, 的大小取决于的大小取决于 m m 的真值的大小的真值的大小. .)366 . 3,66(2NX0853. 09147. 01)37. 1 () 3 . 5 (下面计算犯第二类错误的概率下面计算犯第二类错误的概率 设设 m m = 66
展开阅读全文