第九章-属性(分类)数据分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第九章-属性(分类)数据分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第九 属性 分类 数据 分析 课件
- 资源描述:
-
1、第九章 属性(分类)数据分析n9.1 属性数据及其分析属性数据及其分析n9.2 SAS中的属性数据分析中的属性数据分析n9.1 9.1 属性数据及其分析属性数据及其分析n9.1.1 属性数据分析与列联表属性数据分析与列联表n9.1.2 属性变量关联性分析属性变量关联性分析n9.1.3 属性变量关联度计算属性变量关联度计算n9.1.4 有序变量关联性分析有序变量关联性分析9.1.1 属性数据分析与列联表属性数据分析与列联表1.1.属性变量与属性数据分析属性变量与属性数据分析 从变量的测量水平来看分为两类:连续变量和属性从变量的测量水平来看分为两类:连续变量和属性(Categorical)变量,属
2、性变量又可分为有序的变量,属性变量又可分为有序的(Ordinal)和无序的变量。和无序的变量。对属性数据进行分析,将达到以下几方面的目的:对属性数据进行分析,将达到以下几方面的目的:1)产生汇总分类数据产生汇总分类数据列联表;列联表;2)检验属性变量间的独立性检验属性变量间的独立性(无关联性无关联性);3)计算属性变量间的关联性统计量;计算属性变量间的关联性统计量;4)对高维数据进行分层分析和建模。对高维数据进行分层分析和建模。2.2.列联表列联表 列联表(列联表(contingency table)是由两个以上的属性变)是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四量进
3、行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司,现该集团公司欲进行一项改个不同的区域设有分公司,现该集团公司欲进行一项改革,此项改革可能涉及各分公司的利益,故采用抽样调革,此项改革可能涉及各分公司的利益,故采用抽样调查方法,从四个分公司共抽取查方法,从四个分公司共抽取420个样本单位,了解职个样本单位,了解职工对此项改革的看法,调查结果如表工对此项改革的看法,调查结果如表9-1所示。所示。表9-1 关于改革方案的调查结果(单位:人)表中的行表中的行(row)是态度变量,这里划分为两类:赞成改是态度变量,这里划分为两类:赞成改革方案或反对改革方案;表中的列革方案或反对改革方案
4、;表中的列(column)是单位变量,是单位变量,这里划分为四类,即四个分公司。表这里划分为四类,即四个分公司。表9-1所示的列联表所示的列联表称为称为2 4表。表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420 交叉表的基本形式如图交叉表的基本形式如图9-1所示。所示。这是一张具有这是一张具有r行和行和c列的一般列联表,称它为列的一般列联表,称它为r c表。表。其中,第其中,第i行第行第j列的单元表示为单元列的单元表示为单元ij。交叉表常给出在。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观
5、所有行变量和列变量的组合中的观测个数。表中的总观测个数用测个数用n表示,在单元表示,在单元ij中的观测个数表示为中的观测个数表示为nij,称为,称为单元频数。单元频数。cjjn11cjjn12cjrjn1riin11riin12riicn1ricjijn11列行第1列第2列第c列行边缘频数第1行n11n12n1c第2行n21n22n2c第r行nr1nr2nrc列边缘频数9.1.2 属性变量关联性分析属性变量关联性分析 对于不同的属性变量,从列联表中可以得到它们联合对于不同的属性变量,从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量分布的信息。但有时还想知道形成列联表的
6、行和列变量间是否有某种关联性,即一个变量取不同数值时,另一间是否有某种关联性,即一个变量取不同数值时,另一个变量的分布是否有显著的不同,这就是属性变量关联个变量的分布是否有显著的不同,这就是属性变量关联性分析的内容。性分析的内容。属性变量关联性检验的假设为属性变量关联性检验的假设为H0:变量之间无关联性;:变量之间无关联性;H1:变量之间有关联性:变量之间有关联性 由于变量之间无关联性说明变量互相独立,所以原假由于变量之间无关联性说明变量互相独立,所以原假设和备择假设可以写为:设和备择假设可以写为:H0:变量之间独立;:变量之间独立;H1:变量之间不独立:变量之间不独立1.1.2 2检验检验
7、在双向表的情形下,如果行变量与列变量无关联性的在双向表的情形下,如果行变量与列变量无关联性的原假设原假设H0成立,则列联表中各行的相对分布应近似相等,成立,则列联表中各行的相对分布应近似相等,即即 (j=1,2,c)或或 (j=1,2,c)其中其中mij称为列联表中单元称为列联表中单元ij在无关联性假设下的期望频在无关联性假设下的期望频数,而数,而nij是单元是单元ij的观测频数。的观测频数。nnnniijjijijijdefiijjijijmnnnn为了检验无关联性,将观测的单元频数与无关联的原假为了检验无关联性,将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检
8、设为真时单元的期望频数进行比较。一个通常使用的检验是验是 2检验。检验。2统计量为:统计量为:在在H0成立的条件下,当观测数据较大时,成立的条件下,当观测数据较大时,2统计量的统计量的分布近似服从自由度为分布近似服从自由度为(r-1)(c 1)的的 2分布。分布。ricjijijijmmn1122)(由于由于 2分布是一种连续性分布,而属性数据是不连续的,分布是一种连续性分布,而属性数据是不连续的,故上式只是一个近似计算公式。计算出来的故上式只是一个近似计算公式。计算出来的 2值往往偏值往往偏大,相应的大,相应的p值偏小,从而人为地增加了犯第一类错误值偏小,从而人为地增加了犯第一类错误的机会。
9、为纠正这种偏性,可采用校正的机会。为纠正这种偏性,可采用校正 2,用,用 C2表示。表示。注:通常要求注:通常要求 2检验应满足的条件是:检验应满足的条件是:n40且所有单且所有单元的期望频数均不小于元的期望频数均不小于5。2校正的条件:校正的条件:n40但有单元的期望频数小于但有单元的期望频数小于5。ricjijijijCmmn1122)5.0|(|2.Fisher2.Fisher精确检验精确检验 Fisher精确检验建立在概率论中超几何分布的基础上,精确检验建立在概率论中超几何分布的基础上,对于单元频数小的列联表来说,它是特别合适的。对于单元频数小的列联表来说,它是特别合适的。Fisher
10、精确检验计算在精确检验计算在H0成立的条件下,当总频数和成立的条件下,当总频数和边缘频数固定时,各种可能的表的超几何概率边缘频数固定时,各种可能的表的超几何概率p之和之和 对于双边检验,对于双边检验,A是具有概率是具有概率p小于或等于观测表概率小于或等于观测表概率的表的集合;对于左(右)边检验,的表的集合;对于左(右)边检验,A是这样一些表的是这样一些表的集合,其中每个表的单元集合,其中每个表的单元ij中频数小于(大于)或等于中频数小于(大于)或等于观测表中相应的频数。观测表中相应的频数。ApPROB9.1.3 属性变量关联度计算属性变量关联度计算1.1.系数系数 系数是描述系数是描述2 2表
11、数据关联程度最常用的一种相关系表数据关联程度最常用的一种相关系数。其计算公式为:数。其计算公式为:其中,其中,2即即 2统计量。统计量。|的取值范围是在的取值范围是在0 1之间,之间,的绝对值越大,说明的绝对值越大,说明行变量与列变量的关联程度越高。行变量与列变量的关联程度越高。=0,表示变量之间,表示变量之间相互独立;相互独立;|=1,表示变量之间完全相关,此时列联,表示变量之间完全相关,此时列联表某个方向对角线上的值全为表某个方向对角线上的值全为0。当列联表当列联表r c中的行数中的行数r或列数或列数c大于大于2时,时,系数将随系数将随着着r或或c变大而变大,且变大而变大,且无上界。此时可
12、用列联系数。无上界。此时可用列联系数。n/22.2.列联系数列联系数 列联系数(列联系数(Contingency coefficient)简称为)简称为c系数,系数,主要用于大于主要用于大于2 2表的情况。表的情况。c系数的计算公式为:系数的计算公式为:c系数的取值范围:系数的取值范围:1 c A2且且B1B2,或或A1A2且且B1A2且且B1B2,或,或A1B2则称该对观测是不一致的。则称该对观测是不一致的。用用P表示所有观测对中一致对的个数,表示所有观测对中一致对的个数,Q表示所有观表示所有观测对中不一致对的个数。测对中不一致对的个数。统计量统计量(Gamma)的定义为:的定义为:b统计量
13、统计量(Kendal Tau-b)的定义为:的定义为:c统计量统计量(Kendal Tau-c)的定义为:的定义为:其中其中m=min(r,c)。这三个统计量的取值均在这三个统计量的取值均在-1.0到到1.0之间,值接近于之间,值接近于1.0表示正关联,接近于表示正关联,接近于-1.0表示负关联,等于表示负关联,等于0表示没有相表示没有相关关系。关关系。QPQP cjriijricjijbnnnnQP12121212)()(mmnQPc)1(2n9.2 SAS9.2 SAS中的属性数据分析中的属性数据分析n9.2.1 2 2表的分析表的分析n9.2.2 r c表的分析表的分析n9.2.3 分层
14、列联表分析分层列联表分析n9.2.4 有序变量的关联性分析有序变量的关联性分析9.2.1 2 2表的分析表的分析【例【例9-1】为了探讨吸烟与慢性支气管炎有无关系,调】为了探讨吸烟与慢性支气管炎有无关系,调查了查了339人,情况如下:人,情况如下:表9-2 吸烟与慢性支气管炎的关系调查表设想有两个随机变量:设想有两个随机变量:x表示吸烟与否,表示吸烟与否,y表示患慢性支表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系,即气管炎与否。检验吸烟与患慢性支气管炎有无关系,即检验检验x与与y是否相互独立。数据集是否相互独立。数据集mylib.zqgy如图:如图:原假设原假设H0:x与与y相互独
15、立相互独立患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121 表表9-2中数据使用如下代码存入数据集中数据使用如下代码存入数据集mylib.bron,形,形式如图式如图9-2所示。所示。data mylib.bron;input x$y$numcell;label x=吸烟 y=慢性支气管炎;cards;吸烟 患病 43 吸烟 未患 162 不吸烟 患病 13 不吸烟 未患 121;Run;1.1.分析步骤分析步骤 1)在在“分析家分析家”中,中,打开数据集打开数据集Mylib.bron;2)选择菜单:选择菜单:“Statistics”“Table A n a l y s i s”,
16、打 开,打 开“Table Analysis”对话对话框;框;3)选中变量选中变量smoke,单击,单击“Row”按钮,将其移到行按钮,将其移到行变量框中;选中变量变量框中;选中变量bron,单击按钮,单击按钮“Column”,将其,将其移到列变量框中;选中变量移到列变量框中;选中变量numcell,单击按钮,单击按钮“Cell Counts”,将其移到单元格计数框中,如图所示;,将其移到单元格计数框中,如图所示;4)为了使用为了使用 2统计量检验变量的关联性,单击统计量检验变量的关联性,单击“Statistics”按钮,打开按钮,打开“Table Analysis:Statistics”对对
17、话框,选中话框,选中“Statistics”栏下的栏下的“Chi-square Statistics”复选框,如图复选框,如图9-4所示。所示。图9-4 “Table Analysis:Statistics”对话框 单击单击“OK”按钮,返回。按钮,返回。5)为了在列联表中显示各种频数、百分数,单击为了在列联表中显示各种频数、百分数,单击“Tables(列联表)(列联表)”按钮,打开按钮,打开“Table Analysis:Tables”对话框。选中对话框。选中“Frequencies(频数)(频数)”栏下的栏下的“Expected(期望)(期望)”复选框,取消复选框,取消“Percentag
18、es(百(百分数)分数)”栏下的复选框,如图栏下的复选框,如图9-5所示。所示。图9-5 “Table Analysis:Tables”对话框 两次单击两次单击“OK”按钮,得到分析结果。按钮,得到分析结果。2.2.结果分析结果分析 列联表中列出了表格单元的观测频数(上一行)和在列联表中列出了表格单元的观测频数(上一行)和在原假设下的期望频数(下一行),可以看出,吸烟人中原假设下的期望频数(下一行),可以看出,吸烟人中患病的观测频数比期望频数大(图患病的观测频数比期望频数大(图9-6所示),说明吸所示),说明吸烟与患病又一定关系。烟与患病又一定关系。进一步检验的结果只要看后面(图进一步检验的结
展开阅读全文