第一章非参数统计分析课件.ppt

上传人（卖家）：晟晟文业

文档编号：5184336

上传时间：2023-02-16

格式：PPT

页数：61

大小：706KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《第一章非参数统计分析课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第一章参数统计分析课件

资源描述：: 1、非参数统计参考书非参数统计中国统计出版社吴喜之非参数统计人民大学出版社王星非参数统计讲义北京大学出版社孙山泽非参数统计狭义非参数统计非参数计量经济学非参数模型半参数模型估计总体的分布函数是否等于已知的分布检验两或以上个总体的分布是否相同，通常是检验其中位数是否相等估计总体的密度函数的曲线，但是不能写出解释式第一章非参数统计及一些概念教学中使用的软件SPSS和R。SPSS的非参数统计菜单已经比较全面了。SPSS非参数检验的过程非参数检验的过程1.Chi-Square test 卡方检验（检验总体是否服从某个给定的离散分布）2.Binomial test 二项分布检验（检验
2、总体是否服从二项分布）3.Runs test 游程检验（检验样本序列是否随机）4.1-Sample Kolmogorov-Smirnov test 一个样本柯尔莫哥洛夫-斯米诺夫检验（检验总体是否服从某个连续分布）5.2 independent Samples Test 两个独立样本检验（检验两个独立总体差异性）6.K independent Samples Test K个独立样本检验（检验k个独立总体的差异性）7.2 related Samples Test 两个相关样本检验（检验两个相关总体差异性）8.K related Samples Test K个相关样本检验（检验k个相关总体差异性）
3、思考的要点什么是计数统计量；什么是秩统计量，为什么要讨论秩；为什么要讨论秩的分布、秩的期望和方差；什么是符号秩和线性符号秩；线性符号秩的期望和方差。第一节第一节关于非参数统计关于非参数统计在参数统计学中，最基本的概念是总体、样本、随机变量、概率分布、估计和假设检验等。其很大一部分内容是建立在正态分布相关的理论基础之上的。总体的分布形式或分布族往往是给定的或者是假定了的，所不知道的仅仅是一些参数的值。于是，人们的任务就是对一些参数，比如均值和方差(或标准差)，进行点估计或区间估计，或者是对某些参数值进行各种检验，比如检验正态分布的均值是否相等或等于零等等最常见的检验为对正态总体的t检验、F
4、检验和最大似然比检验等。又比如，线性回归分析中，需要估计回归系数j，j称为参数，所以线性回归分析应该属于参数统计的范畴。然而，在实际生活中，那种对总体分布的假定并不是能随便做出的。有时，数据并不是来自所假定分布的总体。或者数据根本不是来自一个总体，数据因为种种原因被严重污染。这样，在假定总体分布的情况下进行推断的做法就可能产生错误的结论。于是，人们希望在不假定总体分布的情况下，尽量从数据本身来获得所需要的信息。这就是非参数统计的宗旨。因为非参数统计方法不利用关于总体分布的相关信息，所以，就是在对于总体分布的任何信息都没有的情况下，它也能很容易而又较为可靠地获得结论。这时非参数方法往往优于参数方
5、法。在台湾这种方法称为“无母数统计”，即不知到总体信息的统计方法。在不知总体分布的情况下如何利用数据所包含的信息呢?一组数据最基本的信息就是次序。如果可以把数据按大小次序排队，每一个具体数目都有它在整个数据中(从最小的数起)的位置或次序，称为该数据的秩秩(rank)(rank)。数据有多少个观察值，就有多少个秩。在一定的假定下，这些秩和秩的统计量的分布是求得出来的，而且和原来的总体分布无关。这样就可以进行所需要的统计推断。注意：非参数统计的名字中的“非参数(nonparametric)”意味着其方法不涉及描述总体分布的有关数值参数（均值和方差等）；它被称为和分布无关(distributionf
6、ree)，是因为其推断方法和总体分布无关；不应理解为与所有分布(例如有关秩的分布)无关。【例1】在我国的工业和商业企业中随机抽取22家企业进行资产负债率行业差异分析，其某年底的资产负债率（）如下：工工业业646476765555828259598282707075756161646473738383商商业业7777808080806565939391918484919184848686 两个行业的负债水平是否有显著性差异a=0.05。这样的数据中有两个问题：其一是样本容量不大；其二是总体服从何种分布未知。下面我们来构造一种检验的方法，看他们的资产负债有无显著性差异。将两类企业的资产负债混合排序
7、，并给出其序次，这在统计中称为“秩”。在这张表中我们有两个可用的信息。负债率5559616464657073757677秩1234567891011组别11111211112负债率8080828283848486919193秩1213141516171819202122组别22111222222如果我们将12家工业企业的秩相加是94，其平均秩是7.88，将10家商业企业的秩相加得159，其平均秩为15.9，这就给我们一个可以考虑的信息，两种企业的资产负债是有差异的。他们的平均秩不同。另一个想法是好像工业排的顺序相对靠前，有11111，2，1111，222，111，222222共有6段（相同特点
8、的个案的一段称为游程）。如果原假设成立，则两个行业的负债水平的分布使相同的，将其混合后，应能较为充分、均匀地混合，游程数R应该比较大，反之当游程数R较小，则说明两个总体的分布可能不同。那么6这个游程数是大还是小呢？【例2】模拟一个污染的正态分布，计算其样本均值，但是样本均值非正态分布了。这个分布是以0.8的概率是标准正态分布，0.2的概率混进方差为9的正态分布。workfile a u 1 1000 series junzhifor!i=1 to 1000smpl 1 20 series y1=rnd series y2=nrnd series a smpl if y1=0.8 a=9*y2
9、smpl 1 20 scalar mean=mean(a)junzhi(!i)=mean next smpl 1 1000 junzhi.hist 020406080100120-3-2-10123Series:JUNZHISample 1 1000Observations 1000Mean 0.011014Median 0.034733Maximum 3.263554Minimum-3.207570Std.Dev.0.928736Skewness -0.043640Kurtosis 3.458105Jarque-Bera 9.061568Probability 0.010772此数据的正态性
10、检验是非正态。非参数统计归纳起来有如下的三点优点：非参数统计归纳起来有如下的三点优点：1.对总体的假定少；2.可以处理许多有问题数据，比如污染的正态分布，有奇异值的情形；3.容易计算，当然如果不去证明统计量渐近分布。第二节计数统计量计数统计量设是一个随机变量，对于一个给定的常数0，定义随机变量0(0)X10()00ttt称随机变量为X按0分段的计数统计量。即满足括号里的条件得1，否则得0。一、计数统计量计数统计量最常用的计数统计量为 1niiB 符号检验符号检验。设随机变量X1，Xn是从某个总体X中抽出的简单随机样本。且分布函数F(X)在X=0是连续的。假设检验问题，即检验0是其中位数。
11、0:(0HF1）21:(0HF1）2检验的统计量可以取 011(0)nniiiiBx 二、计数统计量的应用在原假设为真的条件下，有服从参数为n和的二项分布b(n,0.5)。由于原假设为时，B应该不太大，也不太小，如果B太大或太小，应该拒绝原假设。例生产过程是否需要调整。某企业生产一种钢管，规定长度的中位数是l0米。现随机地：从正在生产的生产线上选取10根进行测量，结果：9.8,10.1,9.7,9.9,9.8,10.0,9.7,10.0,9.9,9.8分析：中位数是这个问题中所关心的一个位置参数。若产品长度真正的中位数大于或小于10米，则生产过程需要调整。这是一个双侧检验，应建立假设为了
12、对假设作出判定，先要得到检验统计量或。将调查得到数据分别与10比较，算出各个符号的数目：=1，=7，n=8。P值=0.0214小于显著性水平0.05。表明调查数据支持备择假设。即生产过程需要调整。10:10:10MHMHSSSS2(1)2 0.0107P S 有人说我国国有经济单位15个行业的1996年职工平均工资的中位数为7000元。现从15个行业中抽出样本，如下表所示。40384940579861616344661066956709-6769699278977987854686798701-+在显著性水平a=0.05下，我国国有经济单位15个行业的1996年职工平均工资的中位数为700
13、0元吗？5S 因为，故接受原假设。05.01508.0)5(SP7000:;7000:10MHMH 某自选商场的失窃金额在12个月的逐月记录（单位：万元）。经理向董事会说月中位数为10万元以上。在显著性水平0.05下，检验是否失窃值在10 万元以下。3.6710.56102320.8611.3314.37-+12.6911.968.1616.5211.5813.50+-+2S00:MMH01:MMH003174.0)2(Sp接受原假设，即平均为10万元以上.第二节第二节秩统计量秩统计量设来自总体X的样本，记为样本点的秩，即iRiX1(0)niijjRXX1(0)0ijijijXXX
14、XXX Ri为大于等于的的个数。iXjX一、秩统计量一、秩统计量 1,nXXX Xi i5.65.61.41.42.72.75.25.22.62.64.84.82.32.3X X(i)(i)1.41.42.32.32.62.62.72.74.84.85.25.25.65.6R Ri i1 12 23 34 45 56 67 7331()njjRXX1(2.7)4njjX二、秩统计量的分布和数字特征二、秩统计量的分布和数字特征的联合分布为:nRRR,21!1),(21niiipnR 的概率分布为 iR),4,3,2,1(1)(nrnrRpi Ri的数学期望：ninREi,2,121)(11
15、()niiE Rin11niin1(1)122n nnn Ri的方差：ninnRVari,2,112)1)(1()(22()()()iiiVar RE RE R221112ninin21(1)(21)162n nnnn(1)(1)12nnRi和和Rj的协方差的协方差由于 211110222nniijnnniij211()2nini所以 21111222nnijinnniji(,)ijCov R R111(1)22nijnnijn n2111(1)2ninin n 1(1)(1)1(1)1212nnnn 一、绝对秩和符号秩设随机变量X1，X2，Xn 相互独立同分布，分布函数 F(x)连续，关于
16、y轴为对称。随机变量|X1|，|X2|，|Xn|对应的秩向量记为1,nRRiR称为Xi的绝对秩 iiR称为Xi的符号绝对秩第四节第四节线性符号秩统计量线性符号秩统计量000iiiiiXRRX 若X是连续的随机变量，分布关于Y轴为对称，则随机变量|X|与计数统计量(x)相互独立。事实上，对于t0，i=1或i=0，显然有(),|)pXi Xt()(|)()00pXi pXtpXi 对于t0，有()1,|)(0,|)pXXtp XXt(0)pXt 因为，x关于0为对称，则(0)pXt原式11(0)(0)22pXtptX 根据随机变量独立的充分必要条件，可知二者是独立的，同理可证1()2p Xt(
17、)1)()pXp Xt()1)()pXp Xt()0,|)pXXt 在结论下，我们有如下结论。设随机变量X1，X2，Xn 相互独立同分布，分布函数 F(x)连续，关于y轴为对称。其绝对秩向量 1,nRR计数统计量 1,n二者相互独立。二、符号秩统计量扩展若随机变量X1,X2,Xn相互独立且同连续的分布，分布关于轴为对称。其对应的符号秩 1122,nnRRRWilcoxon符号秩统计量 1niiiWR1(1)1()224iin nnEREE Rii1(1)()()4niin nE WERi2()()()iiiVarREREE Riii2()()()()iiiiERE RE REE Riiii2
18、()()()iiiERE RE REiii22()()()iiiERE RE E REiii2222()()()()iiiiEE RE RE REEii21(1)(1)11(1)(51)2122448nnnnn(,)iijjCovRR()()(,)ijijEECov RR11(1)2212n(1)48n 21()()(,)nniiiijjiijVar WVarRCovRR (1)(51)(1)(1)4848nnn nnn (1)(21)24n nn三、线性秩统计量（一）线性秩序统计量的定义设X1，X2，XN为N个随机变量，其对应的秩向量记为：1(,)NRRR 又设(1),(2),(N)和c
19、(1),c(2),c(N)是两组数，组内的N个数不全相等。定义统计量为 1()()NiiSc i a R S称为线性秩统计量，(1),(2),(N)被称为分值，c(1),c(2),c(N)被称为回归常数。例例二样本问题。随机变量X1，X2，Xm相互独立同分布，分布函数为F(x)；随机变量y1，y2，yn相互独立同分布，分布函数为G(y)。混合样本X1，X2，Xm和y1，y2，yn对应的秩向量，记为11,mnQQRRR取两组常数110(,),1,2,1(,),1,2,imiinXXXimcYYYimmmn()a ii111()()()()mm nm niiiii mimSc i a Qc i
20、a RR 若取两组数为：110,1,2,()1,1,2,iminXXXimc iYYYimmmn102()112Nia iNiNnm则 1()#()m niieimSa RYm S为Y总体样本中，观测值大于混合中位数me的个数。设 a(1),a(2),a(N)是一组，若秩向量在集合上均匀分布1,NRRR（二）（二）线性秩统计量的数字特征线性秩统计量的数字特征有11()()NikaE a Ra kN211()()NikVar a Ra kaN定理1（线性秩统计量的数字特征）211cov(),()()(1)Nijka Ra Ra kaN N 111()()()()NNiikkE a Ra k P
21、Rka kN21()()()NiikD a Ra kaP Rk211()Nka kaN(),()ijCov a Ra R1()()(),()Nkh ka kaa ha p a kk a hh11()()(1)Nkh ka kaa haN N21111()()()(1)NNNkhka kaa haa kaN N22111()()(1)NNkka kaa kaN N211()(1)Nka kaN N 设 a(1),a(2),a(N)是一组，若秩向量在集合上均匀分布，则线性秩统计量1,NRRR1()()NiiSc i a R有数学期望()E SNc a定理定理2（线性秩统计量的数字特征）线性秩统计量
22、的数字特征）有方差22111()()()1NNiiVar Sa iac icN其中11()Nicc iN11()Niaa iN1()()()NNNiiE Sci E aRcaNaicNNaicninnin11)(1)(1()()Niic ica Ra1()()Niic i a RNc a()SE S证明：2()E SE S21()()NiiEc ica Ra221()()NiiEc ica Ra()()()()Nijijc ica Ra c jca Ra221()()Niic icE a Ra()()()()Nijijc icc jc E a Ra a Ra()()()()Nijijc ic
23、c jc Cov a Ra R，21()()Niic ic Var a R22111()()NNiic ica iaN211()()()(1)NNijic icc jca iaN N22111()()NNiic ica iaN22111()()(1)NNiic ica iaN N22111()()(1)NNiic ica iaN 例设X1，X2，X3，,Xm，Y1,Yn为样本，对秩和统计量 1()()NNNiiWci aR如，等于0或1，视或否,有iiaN)()(icNmi 2)1()(NnWE则(1)()12nm NVar W,21NaNnc 12/)1()(212NNajaNjNnm
24、cjcNj12)()yE WNca1122n nmn nmNN22111()()1NNiiiiccRRN22111()()()1NNyiiiiD WccRRN21(1)/121nmN NNN=-(1)12nm N（三）线性秩统计量的应用 1、随机变量X1，X2，Xm相互独立同分布，分布函数为连续；随机变量y1，y2，yn相互独立同分布，分布函数为F(x+)，为未知参数。检验的假设为：0:0H，1:0H 检验两个总体是否有相同的中位数。211()2n mii mNSR110,1,2,()1,1,2,iminXXXimc iYYYimmmn21()2Na ii 2、随机变量X1，X2，Xni相互独立同分布Fi(X),i=1,2,N。01:,NHXX同分布11:()()(1,2,1)iiHF xFx iN 且不等式对某些点成立。备择假设的含义是总体中位数有明显的渐大趋势。即两序列1,NRRR和(1,2,3,4,)N 有较强的相关性。其中R是混合秩的总体内的平均。等价的统计量为 1NiiSiR1221111()()2211()()22NiiNNiiiNNRiNNRi211()2(1)(1)12NiiNiRNN NN可见S较大时，支持备择假设。

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第一章非参数统计分析课件.ppt
链接地址：https://www.163wenku.com/p-5184336.html

晟晟文业

内容提供者

实名认证

联系作者