非参数统计-第章分类数据的关联分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《非参数统计-第章分类数据的关联分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 参数 统计 分类 数据 关联 分析 课件
- 资源描述:
-
1、第第5章章 分类数据的分类数据的关联分析关联分析本章内容本章内容本章要求本章要求掌握分类数据的独立性研究方法;区分分类数据的独立性和齐性检验的异同;掌握Fisher检验与卡方检验的应用条件的异同;了解Ridit方法和应用;了解对数线性模型和卡方检验的异同;熟练应用R语言中的相关命令学习如上方法。5.1 列联表和列联表和 独立性检验独立性检验 nAAAA;12rBBBB.nAB12sLL一随机实验的 个结果,对应的变量 的取值为,变量 的取值为,现将这 个结果按变量 和变量的取值组合构建一张rs型列联表。ABAB设 和 是与实验结果有关的两个变量,希望判断 和 是否相互独立。2rs(,),iji
2、jpP AA BB令分别为A和B的边缘概率.若A和B独立,或者A和B之间没有关联,则A和B的联合概率应该等于A和B的边缘概率的乘积,假设检验问题:0.1.:.:.ijijijijHpp pHpp pijpp和当 取大值,或者p-值很小的时候,拒绝零假设。独立性检验独立性检验 2零假设下,时,2srijij2j 1 i 1ij(nm)m 22(r 1)(s 1)2构造统计量:.ijijijn nmn其中5ijm blood=c(98,38,289,67,41,262,13,8,57,18,12,30)blood=matrix(blood,nrow=4,byrow=T)#如果想按照行填入矩阵 bl
3、ood ,1,2,31,98 38 2892,67 41 2623,13 8 574,18 12 30 chisq.test(blood)Pearsons Chi-squared testdata:bloodX-squared=15.0734,df=6,p-value=0.01969R程序程序 要检验不同变量之间是否独立,频率过小的点不能太多.Siegel 和Castellan(1988)指出行数和列数至少其一要超过2,频数低于5个的单元格数不能超过20%,不能充许存在频数小于1的单元格 上一节是利用列联表分析两个因素之间是否独立.当其中一个因素换成区组时,对应的问题是检验实验数据在不同区组上
4、的分布是否一致,这类检验问题称为齐性检验.检验方法和独立性检验相同。5.2 5.2 齐性检验齐性检验 假设检验问题:构造Pearson 统计量:22(r 1)(s 1)在零假设下近似有:jiijijjiijijijneneenQ,.2,2)()(.ijijn nen其中01.11,.,:.:iiriir HpppH 等式不全成立22Jane_Austen=c(147,186,101,83,25,26,11,29,32,39,15,15,94,105,37,22,59,74,28,43,18,10,10,4)Jane_Austen=matrix(Jane_Austen,nrow=6,byrow=
5、T)chisq.test(Jane_Austen)Pearsons Chi-squared testdata:Jane_AustenX-squared=45.5775,df=15,p-value=6.205e-05例例5 5.2 R2 R程序程序 R程序程序 TV_lover=c(83,70,45,91,86,15,41,38,10)TV_lover=matrix(TV_lover,nrow=3,byrow=T)chisq.test(TV_lover)Pearsons Chi-squared testdata:TV_loverX-squared=18.6508,df=4,p-value=0.0
6、0092035.3 Fisher精确检验 Pearson 检验要求频数低于5个的单元格数不能超过20%.对于22列联表,只要有一格数据小于5,就不能满足要求.因此有必要采用别的方法.Fisher精确检验(Fishers exact test)就是其中之一.下面以22列联表为例介绍Fisher精确检验2n.n.1总和n2.n1.n12总和n22 n.2 n11n211B2B1A2A2*2列联表111221221.12.21.12.211122122,|,!P nnnnn n nnnnnnnn nnnn 假设边缘频数和总频数都是固定的.在因数A和因数B独立的零假设之下,服从超几何分布:111221
7、22,nnnn事实上,4个格点中只要一个数确定了,其它3个会随着而定,因此也可以表示为:R语言和EXCEL软件的调用函数分别为比如行总数依次为5,3,列总数依次为3,5时,所有可能的表为其R语言调用函数为1.12.2111.12.2.11122122!|,!nnnnP nn n nnnn nnnn0514233230211203HYPGEOMDIST(n11,n1.,n.1,n)dhyper(n11,n.1,n.2,n1.,log=FALSE)dhyper(k,3,5,5,log=FALSE)dhyper(0,3,5,5,log=FALSE)1 0.01785714 dhyper(1,3,5,
8、5,log=FALSE)1 0.2678571 dhyper(2,3,5,5,log=FALSE)1 0.5357143 dhyper(3,3,5,5,log=FALSE)1 0.17857140514233230211203以上四种表格的概率依次为以上四种表格的概率依次为:检验检验 任何一个格子中的的数目(我们只要考虑 就可以了)都不会过小或者过大,如果过小或者过大,相应的概率会很小,是小概率事件,因而可以拒绝零假设。当大样本时,还可以采用近似正态分布进行检验,即:11nk112212211.2.1.2()(0,1)n n nn nZNn n n n111.12.2111.12.2|,|,P
9、 nk n n n nnP nk n n n nn和R 程序程序 medicine=c(8,2,7,23)medicine=matrix(medicine,nrow=2,byrow=T)fisher.test(medicine)Fishers Exact Test for Count Datadata:medicinep-value=0.002429alternative hypothesis:true odds ratio is not equal to 195 percent confidence interval:1.856547 143.340082sample estimates:o
10、dds ratio 12.12648 sum=0 for(k in 8:10)sum=sum+dhyper(k,15,25,10,log=FALSE);sum1 0.0024286dhyper(8,15,25,10,log=FALSE)用卡方检验用卡方检验,出现警告信息出现警告信息 medicine=c(8,2,7,23)medicine=matrix(medicine,nrow=2,byrow=T)chisq.test(medicine)Pearsons Chi-squared test with Yates continuity correctiondata:medicineX-squar
11、ed=8,df=1,p-value=0.004678Warning message:In chisq.test(medicine):Chi-squared approximation may be incorrect5.4 Mantel-Haenszel检验检验前面介绍的Pearson 独立性(齐性)检验和Fisher精确性检验都是针对两因素的检验,若影响因素有三个,或者两因素之外还要考虑层次的影响,或者单因素还要考虑区组和层次影响,则可以利用Mantel-Haenszel检验,用于某两个因素之间是否有关联.比如产品研究中,需要研究城市和农村两个层次的人群对产品或服务的是否满意;比如,由于不同
12、医院(相当于不同层次)收治的病人不同,需要在不同医院中研究不同治疗方案对病人的治疗效果的差异性.2检验检验 以医院为例,令h=1,2,.,k代表k家医院(k个层次),表示h层四格列联表观测频数,表示第h家医院观测的病案总频数,n为所有k家医院的病案总频数.假设检验问题为:实验组与对照组在治疗效果上没有差异;实验组与对照组在治疗效果上有差异;将病案总频数构成一个三维列联表,其中第h层的列联表如下hijnhn01H:H:nhnh.1总和nh2.nh1.nh12合计nh22 nh.2 nh11nh21有效无效实验组对照组QMH统计量统计量QMH统计量对于小样本,可以直接查表,也可以利用R语言.2kh
13、11h11h 1MHkh11h 1h1h 1h1h 1h2h 2h11h112hhhnE(n)Q,var(n)nnnnnnE(n)var(n)nnn其中,(-1)例例5.4 R程序求解程序求解 HA=c(50,15,92,90)HB=c(47,135,5,60)HA=matrix(HA,nrow=2,byrow=T)HB=matrix(HB,nrow=2,byrow=T)m=c(HA,HB)x=array(m,c(2,2,2)mantelhaen.test(x)Mantel-Haenszel chi-squared test with continuity correctiondata:xMa
14、ntel-Haenszel X-squared=21.9443,df=1,p-value=2.807e-06alternative hypothesis:true common odds ratio is not equal to 195 percent confidence interval:2.080167 6.099585sample estimates:common odds ratio 3.562044统计决策统计决策 以上得到的Mantel-Haenszel检验的结果为:通过检验,说明治癌药与效果有强关联(odds ratio=3.562044),即治癌药有效果.对于大样本,QMH
15、统计量近似服从自由度为1的卡方分布,参见定理5.1.因此还可以利用卡方分布计算p值.Mantel-Haenszel检验方法消除了层次因素对结果的影响,从而提高了检验出来的关联性的可靠性.本例中,还可以对各层分别利用前面介绍的关联性检验:fisher.test(HA),fisher.test(HB),chisq.test(HA),chisq.test(HB)6MHQ21.9443,p2.807 10,值 fisher.test(HA)Fishers Exact Test for Count Datadata:HAp-value=0.0002323alternative hypothesis:tr
16、ue odds ratio is not equal to 195 percent confidence interval:1.651579 6.690462sample estimates:odds ratio 3.245835 fisher.test(HB)Fishers Exact Test for Count Datadata:HBp-value=0.001391alternative hypothesis:true odds ratio is not equal to 195 percent confidence interval:1.550126 14.070352sample e
17、stimates:odds ratio 4.158592 chisq.test(HA)Pearsons Chi-squared test with Yates continuity correctiondata:HAX-squared=12.5737,df=1,p-value=0.0003912 chisq.test(HB)Pearsons Chi-squared test with Yates continuity correctiondata:HBX-squared=8.4144,df=1,p-value=0.003723什么是关联规则挖掘?什么是关联规则挖掘?关联规则挖掘:从事务数据库,
18、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。应用:购物篮分析、分类设计、捆绑销售等5.5 关联规则关联规则“尿布与啤酒尿布与啤酒”典型关联分典型关联分析案例析案例 采用关联模型比较典型的案例是“尿布与啤酒”的故事。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。购物篮分析购物篮分析 如果问题的全域是商店中所有商品的集合,则对每种商
19、品都可以用一个布尔量来表示该商品是否被顾客购买,则每个购物篮都可以用一个布尔向量表示;而通过分析布尔向量则可以得到商品被频繁关联或被同时购买的模式,这些模式就可以用关联规则表示.关联规则(Association Rule Mining)挖掘是数据挖掘中最活跃的研究方法之一最早是由R.Agrawal等人提出的其目的是为了发现超市交易数据库中不同商品之间的关联关系。一个典型的关联规则的例子是:70%购买了牛奶的顾客将倾向于同时购买面包。经典的关联规则挖掘算法:Apriori算法关联规则的基本概念关联规则的基本概念 1.1.购物篮分析引发关联规则挖掘的例子购物篮分析引发关联规则挖掘的例子 问题:“什
20、么商品组或集合顾客多半会在一次购物中同时购买?”购物篮分析:设全域为商店出售的商品的集合(即项目全集),一次购物购买(即事务)的商品为项目全集的子集,若每种商品用一个布尔变量表示该商品的有无,则每个购物篮可用一个布尔向量表示。通过对布尔向量的分析,得到反映商品频繁关联或同时购买的购买模式。这些模式可用关联规则描述。例 购买计算机与购买财务管理软件的关联规则可表示为:computer financial_management_software support=2%,confidence=60%support为支持度,confidence为置信度。该规则表示:在所分析的全部事务中,有2的事务同时购
21、买计算机和财务管理软件;在购买计算机的顾客中60也购买了财务管理软件。关联(Associations)分析的目的是为了挖掘隐藏在数据间的相互关系,即对于给定的一组项目和一个记录集,通过对记录集的分析,得出项目集中的项目之间的相关性。项目之间的相关性用关联规则来描述,关联规则反映了一组数据项之间的密切程度或关系。以商场超市的市场数据库为例,形式化描述关联规则。设I=i1,i2,,im是项的集合,表示各种商品的集合;D=t1,t2,,tn为交易集,表示每笔交易的集合(是全体事务的集合)。其中每一个事务T都是项的集合,且有TI。每个事务都有一个相关的唯一标识符和它对应,也就是事务标识符或TID。设X
展开阅读全文