第二章非参数统计分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第二章非参数统计分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第二 参数 统计分析 课件
- 资源描述:
-
1、8:191第二章单样本非参数检验8:192思考的要点 各种检验方法的思路 各种检验方法统计量的构造 各种检验方法的应用场合 在SPSS与R中如何完成 8:193第一节第一节 卡方检验卡方检验第二节第二节 二项分布检验二项分布检验第三节第三节 单样本的单样本的KSKS检验检验第四节第四节 符号检验符号检验 第五节第五节 Cox-StuartCox-Stuart趋势检验趋势检验 第六节第六节 游程检验游程检验第七节第七节 WilcoxonWilcoxon符号秩检验符号秩检验8:194第一节 Chi-Square test 卡方检验 卡方检验通常称为拟合优度检验。主要是通过样本观测值检验总体是否服从
2、某个分布。如果数据是连续的,需要将连续的分布进行分段,计算每段的期望概率与观测到的频率之间是否差异很大。在SPSS中的Chi-Square test ,主要是对离散的总体进行拟合优度检验。8:195 在实际问题中,会遇到必须了解总体的分布函数的时候,这时利用样本资料对总体的分布函数进行检验就成了非常重要的了。 我们需要检验总体的分布函数F(x)是否等于某个给定的函数 F0(x) ,可以根据经验来确定。其中含有未知参数时,应利用样本资料采用点估计求得后,再进行检验。 一、2拟合优度检验8:196 【例1】某金融系统贷款的偿还类型有四种,各种的预期还率为80%、12%、7%和1%。在一段时间的观察
3、记录中,A型按时偿还的有380笔、B型偿还有69笔、C型有43笔、D笔有8笔。问在5%显著性水平上,这些结果与预期的是否一致。0.05。解:这个问题属于要检验每一类型的出现概率与理论期望概率是否相等,即检验 %1%,7%,12%,80:43210ppppH:1H0iipp 8:197根据显著性水平 ,有 ,由于表明5%的显著水平下,不能拒绝原假设,即观测的比率与期望的比率一致。 82. 7)3(282. 7)3(98. 52Q类型A380400-204001.00B69609811.35C43358641.83D85391.80合计500500_5.98if)(iienpiinpf 2)(ii
4、npf iiinpnpf2)(8:198(1)提出统计假设由统计假设出发,将总体取值范围分为m个互不相容的小区间: xFxFH00:10tt ,21tt,mmtt,1如果分布是连续的其检验步骤为: 区间个数以714为宜。然后,统计出每个区间内样本点的数目fi,再用pi表示变量在第i个区间的概率,8:199 在原假设为真的条件下,这个统计量近似地服从具有m1r个自由度的2 分布,其中r是需要用样本来估计的总体的未知参数的数目,若没有未知参数需要估计,则r为零。(2)选择适当统计量221miiiifnpnp8:1910(3)由给定的显著性水平,查表确定临界值 (这种检验是右侧检验)。rm12 (4
5、)利用样本值 计算实际频数 ,再计算经验概率 ,据以计算的值nxxxx,321ifipmiiiinpnpf122(5)作结论,若 ,则拒绝原假设,即认为总体的分布函数不为 ;反之,则接受原假设,即认为总体的分布函数为 。 2rm12 xF0 xF08:1911 卡方检验的窗口,SPSS的卡方检验主要用来检验离散随机变量的分布。8:1912卡方检验的窗口。8:1913X X380400.0-20.06960.09.04335.08.085.03.05001234TotalObserved NExpected NResidualTest StatisticsTest Statistics5.979
6、3.113Chi-SquareadfAsymp. Sig.X0 cells (.0%) have expected frequencies less than5. The minimum expected cell frequency is 5.0.a. P值大于0.05,结果说明还贷情况与预期是一致的。8:1914 【练习1】 盒中有5种球,重复抽取200次(每次抽1个球)各种球出现的次数见下表。问盒中5种球的个数是否相等?显著水平=0.05。 种别fi1234535404338442008:1915第二节第二节 二项分布检验二项分布检验8:1916合格品合格品频数频数120058:1917
7、第第1步:步:指定“频数”变量:点击【Data】【Weight-Cases】,将“频数频数”选入【Frequency Variable】 【OK】第第2步:步:选择【Analyze】【Nonparametric Tests-Binomial】选项进入主对话框第第3步:步:将待检验的变量选入【Test Variable List】(本例为“合格品”)第第4步:步:在【Test Proportion】中输入检验的概率 (本例为0.9),点击【OK】 (SPSS binomial test)8:1918SPSS的输出结果 表中的合格品的观察比例为0.8,检验比例为0.9。精确单尾概率为0.098,它
8、表示如果该批产品的合格率为0.9,那么25个产品中合格品数量小于等于20个的概率为0.098。P0.05,不拒绝原假设,没有证据表明该批产品的合格率不是0.98:1919【练习2】 某地某一时期内出生40名婴儿,其中女性12名(定Sex=0),男性28名(定Sex=1)。问这个地方出生婴儿的性比例与通常的男女性比例(总体概率约为0.5)是否不同? 8:1920 单样本的K-S检验(Kolmogorov-Smirnov检验)是用来检验抽取样本所依赖的总体是否服从某一理论分布。 其方法是将某一变量的累积分布函数与特定的分布进行比较。设总体的累积分布函数为F(x),已知的理论分布函数为F0(x) ,
9、则检验的原假设和备择假设为 H0: F(x)=F0(x) ; H1: F(x)F0(x) 原假设所表达的是:抽取样本所依赖的总体与指定的理论分布无显著差异。 SPSS提供的理论分布有正态分布、Poisson分布、均匀分布、指数分布等。 第三节 总体分布类型的KS检验8:1921 检验统计量 当H0成立且无抽样误差时,统计量D等于0。因此:当D的实际观测值较小时,可以认为零假设H0成立;当D的观测值较大时,则零假设H0可能不成立。其中Fn(x)称为经验分布。假定有样本1,1,2,2,2,4,5,5,5,10。其经验分布为| )()(|max0 xFxFDn012121052410( )64510
10、951010110nxxxF xxxx8:1922总体分布类型的检验(K-S检验)12.210.812.011.811.912.411.312.212.012.38:1923第第1步:步:选择【Analyze】【Nonparametric Test】【1-Sample K-S】进入主对话框;第第2步:步:将待检验的变量选入【Test Variable List】(本例为“配件长度”);第第3步:步:点击【Exact】,并在对话框中选择 【Exact】,点击【OK】。总体分布类型的检验(SPSS K-S检验)8:1924正态分布正态分布均匀分布均匀分布指数分布指数分布波松分布波松分布8:1925
11、8:1926【练习3】 某市记录了91天市区内发生交通事故的分布情况如下:一天发生的事故数0123456及以上天数2035168750 利用SPSS检验该数据可能的分布。用SPSS,在正态、均匀、指数和泊松分布中选择。8:1927符号检验的统计量为B=得正号的个数。 符号检验符号检验。设随机变量X1,Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题00:(HF1)210:(HF1)2检验的统计量可以取B。 第四节第四节 符号检验符号检验 在原假设为真的条件下,B服从参数为n和0.5的二项分布b(n,0.5)。由于原假设为真时,B应该不太大,也不太小,如果
12、B太大或太小,应该拒绝原假设。8:1928 精确的符号检验是指检验的p值是由精确的概率给出的。 我们我们利用正号和负号的数目,来检验某假设,这是一种最简单的非参数方法。 【例4】联合国人员在世界上71个大城市的生活花费指数(上海是44位,数据为63.5)按自小至大的次序排列如下。一、精确中位数的符号检验一、精确中位数的符号检验8:1929 有人说64应该是这种大城市花费指数的中位数,有人说64顶多是低位数(下四分位数),进行检验。数据如下: 122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8
13、,90.3,89.5, 89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9, 77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2, 67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5, 62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45.2,41.9,38.8,37.7,37.5,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.88:1930Histogram of x
14、xFrequency2040608010012002468108:1931 通常在正态总体分布的假设下,关于总体均值的假设检验和区间估计是用与t检验有关的方法进行的。然而,在本例中,总体分布是未知的。为此,首先看该数据的直方图从图中很难说这是什么分布。假定用总体中位数来表示中间位置,这意味着样本点,取大于me的概率应该与取小于me的概率相等。所研究的问题,可以看作是只有两种可能“成功”或“失败”。 8:1932符号检验的思路,记成功:X-0大于零,即大于中位数M,记为“+”;失败:X-0小于零,即小于中位数M,记为“-”。令 S+=得正符号的数目 S=得负符号得数目可以知道S+或S 均服从二项
15、分布B(65,0.5)。则可以用来作检验的统计量。其假设为:0010:HH0010:HH0010:HH8:1933关于非参数检验统计量需要说明的问题 在非参数检验中,可以得到两个相互等价的统计量,比如在符号检验中,得负号与得正好的个数,就是一对等价的统计量,因为S+S-=N。那么我们在检验时应该用那个呢?我们选择统计量),min(ssk8:193401:64:64HH2871710(28)(0.5) (1 0.5)0.04796iiiip SC(28)0.04796p S假设检验统计量S-=28是得负号的个数得正号的个数43。P-值检验的结果拒绝零假设结论中位数大于648:1935该检验R的代
16、码 x-c(122.4,109.4,105,104.6,104.1,100.6,100,99.3,99.1,98.2,97.5,95.2,92.8,91.8,90.8,90.3,89.5, 89.4,86.4,86.2,85.7,82.6,81,80.9,79.1,77.9, 77.7,76.8,76.6,76.2,74.5,74.3,73.9,71.7,71.2, 67.7,66.7,66.2,65.4,65.3,65.3,65.3,64.6,63.5, 62.7,60.8,58.2,55.5,55.3,55,54.9,52.7,51.8, 49.9,48.2,47.6,46,45.8,45
17、.2,41.9,38.8,37.7,37.5,36.5, 36.4,32.7,32.7,32.2,29.1,27.8,27.8)y=sum(sign(x-64)=1)pbinom(71-y,71,0.50)8:1936二、大样本的情形 当样本容量足够大,我们可以利用二项分布的正态近似来对该问题进行检验。因为计数统计量在原假设为真时,服从b(n,0.5)。且其均值为0.5n,方差为0.25n。则检验的统计量为 足够大)nnnBz(25. 05 . 08:1937该检验SPSS完成步骤(这里是在借用)8:1938 两相关样本检验的窗口8:1939FrequenciesFrequencies4328
18、071Negative DifferencesaPositive DifferencesbTiescTotalme - 71个城市的生活花费指数Nme 71个城市的生活花费指数b. me = 71个城市的生活花费指数c. Test StatisticsTest Statisticsa a-1.661.097.096.048.020ZAsymp. Sig. (2-tailed)Exact Sig. (2-tailed)Exact Sig. (1-tailed)Point Probabilityme - 71个城市的生活花费指数Sign Testa. SPSS检验的结果:8:1940第四节第四节
展开阅读全文