SAS软件应用之行×列表分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《SAS软件应用之行×列表分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 软件 应用 列表 分析 课件
- 资源描述:
-
1、第第13章章 行行列表分析列表分析学习目标v掌握四格表普通卡方检验和配对卡方检验方法以及相应的SAS程序;v了解FREQ过程语句格式;v熟悉RC表资料的分类类型以及相应的统计检验方法;v掌握行均分检验以及SAS程序;v掌握行列均为顺序变量的相关检验以及SAS程序;v掌握分层行列表的分析以及SAS程序;v掌握趋势卡方检验方法以及SAS程序;v了解卡方分割与卡方合并;v熟悉Fishers确切概率计算方法。概述v前面已介绍了两个率比较的检验,在观察例数不够大或拟对多个率进行比较时,检验就不适宜了,因为直接对多个样本率作两两间的检验有可能增加第一类误差。2检验可解决此类问题。v卡方检验是用途很广的一种
2、假设检验方法,这里我们主要学习它在分类资料统计推断中的应用,包括:两个率或两个构成比比较的卡方检验;多个率或多个构成比比较的卡方检验以及分类资料的相关分析等。四格表资料四格表资料v定性指标分为有序的(如:疗效分为“治愈、显效、好转、无效、死亡”)和名义的(如:血型分为“O、A、B、AB”型)类,对于每个受试者来说,有序指标的观测结果只能是该有序指标若干等级中的级(如某人的疗效为“显效”);名义指标的观测结果只能是该名义指标若干标志中的个(如某人的血型为型),显然,无法像处理定量指标那样去直接分析定性指标,故这类资料常被整理成列联表的形式后再进行分析。v当表中只有个定性指标时,称为维列联表;有个
3、或个以上定性指标时,称为多维列联表。常用R、C表示维列联表的行数和列数,并称为RC表;当R=C=时,称为表(或四格表)。表看起来很简单,但根据资料所具备的条件有许多不同的处理方法。四格表卡方检验 v为了解不同致癌剂的致癌作用,分别在两组大白鼠皮肤涂以不同致癌剂,观察不同致癌剂作用下的发癌率,结果如下表13-1,问两组发癌率有无差别?v表13-1 不同致癌剂作用下大白鼠的发癌率v 处理发癌数未发癌数合计发癌率%甲组52(57.18)19(13.82)71 73.24乙组39(33.82)3(8.18)42 92.86合计9122113 80.33四格表卡方检验v这四个格子是表中最基本的数据,其余
4、数据都是由这四个数据推算出来的,因此上表资料又被称之为四格表资料。v2检验的基本思想及计算步骤如下:假设两总体率相等 H0:,即两总体发癌率相等;H1:,即两总体发癌率不等;。212105.0四格表卡方检验v不妨将H0看作 两样本合并的发癌率(Pc80.33),按合计率推算,本例第一行第一列理论上的致癌数为:v此结果称为理论频数,简称理论数,记为T。由上述过程可推导出理论数的计算公式为:2118.57%33.80711139171nnnTcrrc四格表卡方检验v式中Trc即第r行第c列的理论数,nr为Trc所在行合计,nc为Trc所在列合计。相应地,表中的4个基本数据为实际频数,简称为实际数,
5、记为A。4个基本格子的实际数都不等于理论数。v经上述推导,两样本率的差别就演绎为实际数与理论数之间的差别。即:两样本率相差越大,则实际数与理论数的差别就愈大。四格表卡方检验v卡方检验的统计量是2值,它是每个格子实际频数A与理论频数T差值平方与理论频数之比的累计和。每个格子中的理论频数T是在假定两组的发癌率相等(均等于两组合计的发癌率)的情况下计算出来的,故2值越大,说明实际频数与理论频数的差别越明显,两组发癌率不同的可能性越大。v TTA22)(四格表卡方检验v实际数与理论数的差值服从2分布:在H0条件下,上述 差值属于随机误差,可获得统计量:6.477718.8)18.83(82.33)82
6、.3339(82.13)82.1319(18.57)18.5752(22222TA四格表卡方检验v差2分布表,确定P值并作出推论,以1查2界值表得:v本例26.4777,故0.05P0.01,按水平拒绝H0,接受H1,因而可以认为两种致癌剂作用于大白鼠的发癌率有差别(统计学推论)。结果说明乙组致癌剂的发癌率高于甲组(结合样本率作实际推论)。63.6,84.3201.0205.0连续性校正公式 v2分布是正态变量的一种分布。设 是k个独立的标准正态变量,则 。2界值表就是根据这种连续性分布计算出来的。2统计量计算公式实质上是正态近似法。分类资料是间断性的,由此计算的2值不连续,尤其自由度为1的四
7、格表,求出的概率可能偏小,此时需要对2值进行连续性校正,公式为v kXXX,21kXXXk,222212TTA22)5.0(2检验的应用条件 v连续性校正主要针对四格表资料,尤其理论数较小时,连续性校正不可忽略。v四格表2检验的应用条件为:v当n40且所有T5时,用普通的2检验,若所得,改用确切概率法;v当n40但有1T5时,用校正的2检验;v当n40或有T1时,不能用2检验,改用确切概率法。四格表卡方检验的SAS程序 v在SAS/STAT模块中FREQ、TABULATE和SUMMARY等过程可用于分类资料的统计描述,其中FREQ过程兼具统计描述和统计推断的功能,对分类变量计算频数分布,产生从
8、一维到n维的频数表和列联表;对于二维表,可进行2检验,对于三维表,可作Mentel-Hanszel分层分析。FREQ过程是SAS用于分析分类资料的一个常用过程。本节将先向大家介绍FREQ过程的语句及其格式。vFREQ过程的语句基本格式如下:Proc freq data=order=;Table 分类变量*分类变量/;Weight 变量;Run;四格表卡方检验的SAS程序vDATA数据集:规定PROC FREQ语句使用的数据集;vORDERFREQ,按频数递减顺序排列;ORDERDATA,按数据集中出现的顺序排列;ORDERINTERNAL,按内部值排列(缺省);ORDERFORMATTED,按
9、外部格式值排列;vTable语句指定构成表格的变量和表格结构。表格的结构由变量个数和变量排列顺序决定,一个table语句允许列出多个表格结构。PROC FREQ过程中可有多条TABLES语句,TABLES语句后可接多个表格请求式,每个请求式可包含任何数量的变量,从而得到所需的表格。四格表卡方检验的SAS程序v如果TABLES语句缺省,则FREQ过程对数据集中的所有变量都给出相应的一维频数表。不规定任何选项时,若需某变量的一维频数,FREQ给出该变量每一水平的频数、累积频数、频数的百分比和累积百分比;若需二维频数表,FREQ产生交叉分组列表,即包括各格的频数、总频数的格百分数、行频数的格百分数和
10、列频数的格百分数。v请求式由一个或多个用“*”连接起来的变量名组成。几个变量可放在括号中,如:vTABLES A*(B C);等价于TABLES A*B A*C;vTABLES(A-C)*D;等价于TABLES A*D B*D C*D;四格表卡方检验的SAS程序v下列选项可用于TABLES语句中“/”的后面:vOUT数据集:建立一个包含变量值和频数计数的输出数据集。如果TABLES语句中不止一个请求式,数据集的内容相应于TABLES语句中最后一个请求。vCHISQ对每层作c2检验,包括Pearson c2、似然比c2和Mantel-Haenszel c2。此外还给出与c2检验有关的关联指标包括
11、Phi系数、列联系数和Cramers V。对于22表,给出Fisher精确概率。vAGREE 进行配对c 2检验。vEXACT 对大于22的列联表计算Fisher精确概率。同时也给出CHISQ选项的全部统计量。四格表卡方检验的SAS程序vMEASURES对每层的二维表计算一系列关联指标及相应的标准误,包括Pearson和Spearman相关系数,以及Gamma和Kendall系数等。对于22表,还给出常用的危险度指标及其标准误。vCMH 给出Cochran-Mantel-Haenszel统计量,可检验在调整了TABLES语句中其它变量后,行变量与列变量之间的关联程度。对于22表,FREQ过程给
12、出相对危险度估计及其可信区间,还给出各层关联度指标是否齐性的Breslow检验。vALL 给出CHISQ、MEASURES、CMH所请求的全部统计量。vALPHAp给出检验水准。缺省为0.05。四格表卡方检验的SAS程序vEXPECTED给出期望频数。vDEVIATION给出每格的实际频数与期望频数的差值。vCELLCHISQ给出每格对总c2的贡献,即计算每格的(实际频数-期望频数)2/期望频数。vCUMCOL给出累积列百分数。vNOFREQ不给出列联表中的格频数。vNOPERCENT不给出列联表中的格百分数。四格表卡方检验的SAS程序vNOROW不给出列联表中各格的行百分数。vNOCOL不给
13、出列联表中各格的列百分数。vNOCUM不给出频数表的累积频数和累积百分数。vNOPRINT不给出表格,但给出CHISQ、MEASURES或CMH等语句所指定的统计量。vTrend指令系统对2C频数表的C个百分率进行Cochran-Armitage趋势检验;vWEIGHT语句:通常每个观察值提供数值1给频数计数,当WEIGHT语句出现时,每个观察值提供的是该观察值的加权变量值。该值必须非负,但可不必为整数。只能使用一个WEIGHT语句,且该语句作用于所有的表。配对计数资料的卡方检验 v把每一份样本平均分成两份,分别用两种方法进行化验,比较此两种化验方法的结果(两类计数资料)是否有本质的不同;或者
展开阅读全文