第九章-属性(分类)数据分析课件.ppt

上传人（卖家）：晟晟文业

文档编号：4622925

上传时间：2022-12-26

格式：PPT

页数：46

大小：354KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《第九章-属性(分类)数据分析课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第九属性分类数据分析课件

资源描述：: 1、第九章属性（分类）数据分析n9.1 属性数据及其分析属性数据及其分析n9.2 SAS中的属性数据分析中的属性数据分析n9.1 9.1 属性数据及其分析属性数据及其分析n9.1.1 属性数据分析与列联表属性数据分析与列联表n9.1.2 属性变量关联性分析属性变量关联性分析n9.1.3 属性变量关联度计算属性变量关联度计算n9.1.4 有序变量关联性分析有序变量关联性分析9.1.1 属性数据分析与列联表属性数据分析与列联表1.1.属性变量与属性数据分析属性变量与属性数据分析从变量的测量水平来看分为两类：连续变量和属性从变量的测量水平来看分为两类：连续变量和属性(Categorical)变量，属
2、性变量又可分为有序的变量，属性变量又可分为有序的(Ordinal)和无序的变量。和无序的变量。对属性数据进行分析，将达到以下几方面的目的：对属性数据进行分析，将达到以下几方面的目的：1)产生汇总分类数据产生汇总分类数据列联表；列联表；2)检验属性变量间的独立性检验属性变量间的独立性(无关联性无关联性)；3)计算属性变量间的关联性统计量；计算属性变量间的关联性统计量；4)对高维数据进行分层分析和建模。对高维数据进行分层分析和建模。2.2.列联表列联表列联表（列联表（contingency table）是由两个以上的属性变）是由两个以上的属性变量进行交叉分类的频数分布表。例如一个集团公司在四量进
3、行交叉分类的频数分布表。例如一个集团公司在四个不同的区域设有分公司，现该集团公司欲进行一项改个不同的区域设有分公司，现该集团公司欲进行一项改革，此项改革可能涉及各分公司的利益，故采用抽样调革，此项改革可能涉及各分公司的利益，故采用抽样调查方法，从四个分公司共抽取查方法，从四个分公司共抽取420个样本单位，了解职个样本单位，了解职工对此项改革的看法，调查结果如表工对此项改革的看法，调查结果如表9-1所示。所示。表9-1 关于改革方案的调查结果（单位：人）表中的行表中的行(row)是态度变量，这里划分为两类：赞成改是态度变量，这里划分为两类：赞成改革方案或反对改革方案；表中的列革方案或反对改革方案
4、；表中的列(column)是单位变量，是单位变量，这里划分为四类，即四个分公司。表这里划分为四类，即四个分公司。表9-1所示的列联表所示的列联表称为称为2 4表。表。一分公司二分公司三分公司四分公司合计赞成该方案68755779279反对该方案32453331141合计10012090110420 交叉表的基本形式如图交叉表的基本形式如图9-1所示。所示。这是一张具有这是一张具有r行和行和c列的一般列联表，称它为列的一般列联表，称它为r c表。表。其中，第其中，第i行第行第j列的单元表示为单元列的单元表示为单元ij。交叉表常给出在。交叉表常给出在所有行变量和列变量的组合中的观测个数。表中的总观
5、所有行变量和列变量的组合中的观测个数。表中的总观测个数用测个数用n表示，在单元表示，在单元ij中的观测个数表示为中的观测个数表示为nij，称为，称为单元频数。单元频数。cjjn11cjjn12cjrjn1riin11riin12riicn1ricjijn11列行第1列第2列第c列行边缘频数第1行n11n12n1c第2行n21n22n2c第r行nr1nr2nrc列边缘频数9.1.2 属性变量关联性分析属性变量关联性分析对于不同的属性变量，从列联表中可以得到它们联合对于不同的属性变量，从列联表中可以得到它们联合分布的信息。但有时还想知道形成列联表的行和列变量分布的信息。但有时还想知道形成列联表的
6、行和列变量间是否有某种关联性，即一个变量取不同数值时，另一间是否有某种关联性，即一个变量取不同数值时，另一个变量的分布是否有显著的不同，这就是属性变量关联个变量的分布是否有显著的不同，这就是属性变量关联性分析的内容。性分析的内容。属性变量关联性检验的假设为属性变量关联性检验的假设为H0：变量之间无关联性；：变量之间无关联性；H1：变量之间有关联性：变量之间有关联性由于变量之间无关联性说明变量互相独立，所以原假由于变量之间无关联性说明变量互相独立，所以原假设和备择假设可以写为：设和备择假设可以写为：H0：变量之间独立；：变量之间独立；H1：变量之间不独立：变量之间不独立1.1.2 2检验检验
7、在双向表的情形下，如果行变量与列变量无关联性的在双向表的情形下，如果行变量与列变量无关联性的原假设原假设H0成立，则列联表中各行的相对分布应近似相等，成立，则列联表中各行的相对分布应近似相等，即即（j=1，2，c）或或（j=1，2，c）其中其中mij称为列联表中单元称为列联表中单元ij在无关联性假设下的期望频在无关联性假设下的期望频数，而数，而nij是单元是单元ij的观测频数。的观测频数。nnnniijjijijijdefiijjijijmnnnn为了检验无关联性，将观测的单元频数与无关联的原假为了检验无关联性，将观测的单元频数与无关联的原假设为真时单元的期望频数进行比较。一个通常使用的检
8、设为真时单元的期望频数进行比较。一个通常使用的检验是验是 2检验。检验。2统计量为：统计量为：在在H0成立的条件下，当观测数据较大时，成立的条件下，当观测数据较大时，2统计量的统计量的分布近似服从自由度为分布近似服从自由度为(r-1)(c 1)的的 2分布。分布。ricjijijijmmn1122)(由于由于 2分布是一种连续性分布，而属性数据是不连续的，分布是一种连续性分布，而属性数据是不连续的，故上式只是一个近似计算公式。计算出来的故上式只是一个近似计算公式。计算出来的 2值往往偏值往往偏大，相应的大，相应的p值偏小，从而人为地增加了犯第一类错误值偏小，从而人为地增加了犯第一类错误的机会。
9、为纠正这种偏性，可采用校正的机会。为纠正这种偏性，可采用校正 2，用，用 C2表示。表示。注：通常要求注：通常要求 2检验应满足的条件是：检验应满足的条件是：n40且所有单且所有单元的期望频数均不小于元的期望频数均不小于5。2校正的条件：校正的条件：n40但有单元的期望频数小于但有单元的期望频数小于5。ricjijijijCmmn1122)5.0|(|2.Fisher2.Fisher精确检验精确检验 Fisher精确检验建立在概率论中超几何分布的基础上，精确检验建立在概率论中超几何分布的基础上，对于单元频数小的列联表来说，它是特别合适的。对于单元频数小的列联表来说，它是特别合适的。Fisher
10、精确检验计算在精确检验计算在H0成立的条件下，当总频数和成立的条件下，当总频数和边缘频数固定时，各种可能的表的超几何概率边缘频数固定时，各种可能的表的超几何概率p之和之和对于双边检验，对于双边检验，A是具有概率是具有概率p小于或等于观测表概率小于或等于观测表概率的表的集合；对于左（右）边检验，的表的集合；对于左（右）边检验，A是这样一些表的是这样一些表的集合，其中每个表的单元集合，其中每个表的单元ij中频数小于（大于）或等于中频数小于（大于）或等于观测表中相应的频数。观测表中相应的频数。ApPROB9.1.3 属性变量关联度计算属性变量关联度计算1.1.系数系数系数是描述系数是描述2 2表
11、数据关联程度最常用的一种相关系表数据关联程度最常用的一种相关系数。其计算公式为：数。其计算公式为：其中，其中，2即即 2统计量。统计量。|的取值范围是在的取值范围是在0 1之间，之间，的绝对值越大，说明的绝对值越大，说明行变量与列变量的关联程度越高。行变量与列变量的关联程度越高。=0，表示变量之间，表示变量之间相互独立；相互独立；|=1，表示变量之间完全相关，此时列联，表示变量之间完全相关，此时列联表某个方向对角线上的值全为表某个方向对角线上的值全为0。当列联表当列联表r c中的行数中的行数r或列数或列数c大于大于2时，时，系数将随系数将随着着r或或c变大而变大，且变大而变大，且无上界。此时可
12、用列联系数。无上界。此时可用列联系数。n/22.2.列联系数列联系数列联系数（列联系数（Contingency coefficient）简称为）简称为c系数，系数，主要用于大于主要用于大于2 2表的情况。表的情况。c系数的计算公式为：系数的计算公式为：c系数的取值范围：系数的取值范围：1 c A2且且B1B2，或或A1A2且且B1A2且且B1B2，或，或A1B2则称该对观测是不一致的。则称该对观测是不一致的。用用P表示所有观测对中一致对的个数，表示所有观测对中一致对的个数，Q表示所有观表示所有观测对中不一致对的个数。测对中不一致对的个数。统计量统计量(Gamma)的定义为：的定义为：b统计量
13、统计量(Kendal Tau-b)的定义为：的定义为：c统计量统计量(Kendal Tau-c)的定义为：的定义为：其中其中m=min(r，c)。这三个统计量的取值均在这三个统计量的取值均在-1.0到到1.0之间，值接近于之间，值接近于1.0表示正关联，接近于表示正关联，接近于-1.0表示负关联，等于表示负关联，等于0表示没有相表示没有相关关系。关关系。QPQP cjriijricjijbnnnnQP12121212)()(mmnQPc)1(2n9.2 SAS9.2 SAS中的属性数据分析中的属性数据分析n9.2.1 2 2表的分析表的分析n9.2.2 r c表的分析表的分析n9.2.3 分层
14、列联表分析分层列联表分析n9.2.4 有序变量的关联性分析有序变量的关联性分析9.2.1 2 2表的分析表的分析【例【例9-1】为了探讨吸烟与慢性支气管炎有无关系，调】为了探讨吸烟与慢性支气管炎有无关系，调查了查了339人，情况如下：人，情况如下：表9-2 吸烟与慢性支气管炎的关系调查表设想有两个随机变量：设想有两个随机变量：x表示吸烟与否，表示吸烟与否，y表示患慢性支表示患慢性支气管炎与否。检验吸烟与患慢性支气管炎有无关系，即气管炎与否。检验吸烟与患慢性支气管炎有无关系，即检验检验x与与y是否相互独立。数据集是否相互独立。数据集mylib.zqgy如图：如图：原假设原假设H0：x与与y相互独
15、立相互独立患慢性支气管炎未患慢性支气管炎吸烟43162不吸烟13121 表表9-2中数据使用如下代码存入数据集中数据使用如下代码存入数据集mylib.bron，形，形式如图式如图9-2所示。所示。data mylib.bron;input x$y$numcell;label x=吸烟 y=慢性支气管炎;cards;吸烟患病 43 吸烟未患 162 不吸烟患病 13 不吸烟未患 121;Run;1.1.分析步骤分析步骤 1)在在“分析家分析家”中，中，打开数据集打开数据集Mylib.bron；2)选择菜单：选择菜单：“Statistics”“Table A n a l y s i s”，
16、打开，打开“Table Analysis”对话对话框；框；3)选中变量选中变量smoke，单击，单击“Row”按钮，将其移到行按钮，将其移到行变量框中；选中变量变量框中；选中变量bron，单击按钮，单击按钮“Column”，将其，将其移到列变量框中；选中变量移到列变量框中；选中变量numcell，单击按钮，单击按钮“Cell Counts”，将其移到单元格计数框中，如图所示；，将其移到单元格计数框中，如图所示；4)为了使用为了使用 2统计量检验变量的关联性，单击统计量检验变量的关联性，单击“Statistics”按钮，打开按钮，打开“Table Analysis：Statistics”对对
17、话框，选中话框，选中“Statistics”栏下的栏下的“Chi-square Statistics”复选框，如图复选框，如图9-4所示。所示。图9-4 “Table Analysis：Statistics”对话框单击单击“OK”按钮，返回。按钮，返回。5)为了在列联表中显示各种频数、百分数，单击为了在列联表中显示各种频数、百分数，单击“Tables（列联表）（列联表）”按钮，打开按钮，打开“Table Analysis：Tables”对话框。选中对话框。选中“Frequencies（频数）（频数）”栏下的栏下的“Expected（期望）（期望）”复选框，取消复选框，取消“Percentag
18、es（百（百分数）分数）”栏下的复选框，如图栏下的复选框，如图9-5所示。所示。图9-5 “Table Analysis：Tables”对话框两次单击两次单击“OK”按钮，得到分析结果。按钮，得到分析结果。2.2.结果分析结果分析列联表中列出了表格单元的观测频数（上一行）和在列联表中列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行），可以看出，吸烟人中原假设下的期望频数（下一行），可以看出，吸烟人中患病的观测频数比期望频数大（图患病的观测频数比期望频数大（图9-6所示），说明吸所示），说明吸烟与患病又一定关系。烟与患病又一定关系。进一步检验的结果只要看后面（图进一步检验的结
19、果只要看后面（图9-7）统计量部分）统计量部分的的Chi Square一行，其值为一行，其值为7.4688，p值为值为0.0063，所以，所以应拒绝原假设，作出结论：吸烟与患慢性支气管炎是有应拒绝原假设，作出结论：吸烟与患慢性支气管炎是有关联的。当然，这个关联度不是很大，三个关联度系数关联的。当然，这个关联度不是很大，三个关联度系数均在均在0.15左右。左右。对于两行两列的表格对于两行两列的表格FREQ过程自动给出过程自动给出Fisher精确检精确检验的结果，其双侧检验验的结果，其双侧检验p值为值为0.0069，应拒绝原假设。，应拒绝原假设。9.2.2 r c表的分析表的分析【例【例9-2】一
20、种原料来自三个不同的地区，原料质量被】一种原料来自三个不同的地区，原料质量被分成三个不同等级。从这批原料中随机抽取分成三个不同等级。从这批原料中随机抽取500件进行件进行检验，结果如表检验，结果如表9-3所示。要求检验各个地区和原料质所示。要求检验各个地区和原料质量之间是否存在依赖关系。量之间是否存在依赖关系。表9-3 原料抽样的结果一级二级二级甲地区526424乙地区605952丙地区506574设表设表9-3数据已经存放在数据集数据已经存放在数据集mylib.yldj中，如图中，如图9-9所所示。示。图9-9 数据集mylib.yldj 检验的原假设为检验的原假设为H0：地区和原料等级之间
21、是独立的：地区和原料等级之间是独立的(不存在依赖关系不存在依赖关系)。1.1.分析步骤分析步骤 1)在在“分析家分析家”中，打开数据集中，打开数据集Mylib.yldj；2)选择菜单选择菜单“Statistics”“Table Analysis”，打开，打开“Table Analysis”对话框；对话框；3)选中变量选中变量x，单击，单击“Row”按钮，将其移到行变量框按钮，将其移到行变量框中；选中变量中；选中变量y，单击按钮，单击按钮“Column”，将其移到列变，将其移到列变量框中；选中变量量框中；选中变量numcell，单击按钮，单击按钮“Cell Counts”，将其移到单元格计数框中
22、，如图所示；将其移到单元格计数框中，如图所示；4)为了使用为了使用 2统计量检验变量的关联性，单击统计量检验变量的关联性，单击“Statistics”按钮，打开按钮，打开“Table Analysis：Statistics”对对话框，选中话框，选中“Statistics”栏下的栏下的“Chi-square Statistics”复选框；考虑对列联表作复选框；考虑对列联表作Fisher精确检验，选中精确检验，选中“Exact test”栏下的栏下的“Exact test for(r x c)table”复选框，如图复选框，如图所示。所示。图9-11 “Table Analysis：Tables”
23、对话框单击单击“OK”按钮，返回。按钮，返回。5)为了在列联表中显示各种频数、百分数，单击为了在列联表中显示各种频数、百分数，单击“Tables（列联表）（列联表）”按钮，打开按钮，打开“Table Analysis：Tables”对话框。选中对话框。选中“Frequencies（频数）（频数）”栏下的栏下的“Expected（期望）（期望）”复选框，取消复选框，取消“Percentages（百（百分数）分数）”栏下的复选框，如图栏下的复选框，如图9-11所示。所示。两次单击两次单击“OK”按钮，得到分析结果。按钮，得到分析结果。2.2.结果分析结果分析列联表（图列联表（图9-12）中列出
24、了表格单元的观测频数（上）中列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行）。一行）和在原假设下的期望频数（下一行）。进一步检验的结果要看（图左）统计量部分的进一步检验的结果要看（图左）统计量部分的Chi Square一行，其值为一行，其值为19.8225，p值为值为0.0005，所以应拒，所以应拒绝原假设，作出结论：地区与原料等级是有关联的。这绝原假设，作出结论：地区与原料等级是有关联的。这里的关联度系数取值分别是里的关联度系数取值分别是0.1991、0.1953、0.1408。图右给出图右给出Fisher精确检验结果，其双侧检验精确检验结果，其双侧检验p值远小于值远小于0
25、.05，也应拒绝原假设。，也应拒绝原假设。9.2.3 分层列联表分析分层列联表分析【例【例9-3】对】对294人进行性别（人进行性别（sex）、饮酒（）、饮酒（drink）与）与抑郁症（抑郁症（cases）关系的调查，结果见表）关系的调查，结果见表9-4。要求检验。要求检验三者之间是否存在关联性。三者之间是否存在关联性。表9-4 性别、饮酒与抑郁症关系的调查设表设表9-4的数据已经存放在数据集的数据已经存放在数据集mylib.cesd中，形式中，形式如图如图9-15所示。所示。饮酒不饮性别正常患病正常患病男878142女106333771.1.分析步骤分析步骤 1)在在“分析家分析家”中，中
26、，打开数据集打开数据集Mylib.cesd；2)选择菜单选择菜单“Statistics”“Table Analysis”，打开，打开“Table Analysis”对话框；对话框；3)选中变量选中变量sex，单击，单击“Row”按钮，将其移到行变量按钮，将其移到行变量框中；选中变量框中；选中变量cases，单击按钮，单击按钮“Column”，将其移到，将其移到列变量框中；选中变量列变量框中；选中变量drink，单击按钮，单击按钮“Strata”，将，将其移到分层变量框中；选中变量其移到分层变量框中；选中变量numcell，单击按钮，单击按钮“Cell Counts”，将其移到单元格
27、计数框中，如图所示；，将其移到单元格计数框中，如图所示；4)单击单击“Select Tab（选择表）（选择表）”按钮，打开按钮，打开“Table Analysis：Select Tab”对话框。在对话框。在“Select tables(选择列选择列联表或分层表联表或分层表)”选项区域中选择选项区域中选择“SEX*CASES，DRINK*SEX*CASES”两项，如图两项，如图9-17所示。所示。单击单击“OK”按钮返回。按钮返回。5)单击单击“Statistics”按钮，打开按钮，打开“Table Analysis：Statistics”对话框，选中对话框，选中“Statistics”栏下的栏
28、下的“Chi-square Statistics”复选框，如图左所示。单击复选框，如图左所示。单击“OK”按按钮返回。钮返回。6)单击单击“Tables”按钮，打开按钮，打开“Table Analysis：Tables”对话框。选中对话框。选中“Frequencies”栏下的栏下的“Expected”复选框，复选框，取消取消“Percentages”栏下的复选框，如图栏下的复选框，如图9-19所示。所示。2.2.结果分析结果分析结果分为三个部分：不论饮酒与否、只考虑饮酒者、结果分为三个部分：不论饮酒与否、只考虑饮酒者、只考虑不饮酒者。只考虑不饮酒者。1)不论饮酒与否：不论饮酒与否：列联表（图
29、列联表（图9-20左）列出了表格单元的观测频数（上左）列出了表格单元的观测频数（上一行）和在原假设下的期望频数（下一行）。可以看出一行）和在原假设下的期望频数（下一行）。可以看出女性患抑郁症的频数大于期望频数，因此有可能女性比女性患抑郁症的频数大于期望频数，因此有可能女性比男性更易患抑郁症。男性更易患抑郁症。进一步检验的结果要看进一步检验的结果要看 2检验与检验与Fisher精确检验结果。精确检验结果。由图看出由图看出 2统计量的值为统计量的值为8.0815，p值为值为0.0045；Fisher精确检验的双侧检验精确检验的双侧检验p值为值为0.040，所以应拒绝原假设，所以应拒绝原假设，作出结
30、论：男女性别与患抑郁症与否是有关联的。但是，作出结论：男女性别与患抑郁症与否是有关联的。但是，对于对于2 2表来说，这里的表来说，这里的系数为系数为-0.1658，说明性别与，说明性别与患抑郁症的关联度不是很大。患抑郁症的关联度不是很大。2)只考虑不饮酒者只考虑不饮酒者(Controlling for DRINK=不饮不饮)：从列联表（图左）和检验统计量（图右）可以看出虽从列联表（图左）和检验统计量（图右）可以看出虽然女性患抑郁症的频数略大于期望频数，但然女性患抑郁症的频数略大于期望频数，但 2统计量的统计量的值为值为0.1070，p值为值为0.7436；Fisher精确检验的双侧检验精确检验
31、的双侧检验p值为值为1.0000，所以无法拒绝原假设，即对于不饮酒者来，所以无法拒绝原假设，即对于不饮酒者来说，患抑郁症与性别因素无关联。说，患抑郁症与性别因素无关联。3)只考虑饮酒者只考虑饮酒者(Controlling for DRINK=饮酒饮酒)：从列联表（图左）和检验统计量（图右）可以看出女从列联表（图左）和检验统计量（图右）可以看出女性患抑郁症的频数大于期望频数，因此有可能女性比男性患抑郁症的频数大于期望频数，因此有可能女性比男性更易患抑郁症。性更易患抑郁症。进一步检验的结果图进一步检验的结果图9-22右看出右看出 2统计量的值为统计量的值为9.1649，p值为值为0.0025；Fi
32、sher精确检验的双侧检验精确检验的双侧检验p值为值为0.0027，所以应拒绝原假设，作出结论：对于饮酒者来说，男女所以应拒绝原假设，作出结论：对于饮酒者来说，男女性别与患抑郁症与否是有关联的，女性饮酒者更容易患性别与患抑郁症与否是有关联的，女性饮酒者更容易患抑郁症。抑郁症。9.2.4 有序变量的关联性分析有序变量的关联性分析【例【例9-4】研究奶牛种群大小与其患某种细菌性疾病的】研究奶牛种群大小与其患某种细菌性疾病的关系。牛的患病程度关系。牛的患病程度(disease)分为没有分为没有(0)、低、低(1)、高、高(2)，牛群大小牛群大小(herdsize)分为小分为小(1)、中、中(2)、大
33、、大(3)。根据患病。根据患病程度和牛群大小记录的九个类中动物的头数见表。程度和牛群大小记录的九个类中动物的头数见表。表9-5 奶牛疾病与牛群大小的数据设表设表9-5的数据已经存放在数据集的数据已经存放在数据集mylib.cows中，形式如中，形式如图图9-23所示。所示。没有(0)低(1)高(2)小959中18419大11881361.1.分析步骤分析步骤 1)在在“分析家分析家”中，中，打开数据集打开数据集Mylib.cows；2)选择菜单选择菜单“Statistics”“Table Analysis”，打开，打开“Table Analysis”对话框；对话框；3)选中变量选中
34、变量herdsize，单击，单击“Row”按钮，将其移到行按钮，将其移到行变量框中；选中变量变量框中；选中变量disease，单击按钮，单击按钮“Column”，将，将其移到列变量框中；选中变量其移到列变量框中；选中变量numcell，单击按钮，单击按钮“Cell Counts”，将其移到单元格计数框中，如图所示；，将其移到单元格计数框中，如图所示；4)单击单击“Statistics（统计量）（统计量）”按钮，打开按钮，打开“Table Analysis：Statistics”对话框，选中对话框，选中“Statistics”栏下的栏下的“Chi-square Statistics”与与“Mea
35、sures of association”复复选框，如图选框，如图9-25所示。所示。单击单击“OK”按钮返回。按钮返回。5)单击单击“Tables（列联表）（列联表）”按钮，打开按钮，打开“Table Analysis：Tables”对话框。选中对话框。选中“Frequencies（频数）（频数）”栏下的栏下的“E x p e c t e d（期望）（期望）”复选框，取消复选框，取消“Percentages（百分数）（百分数）”栏下的复选框，如图栏下的复选框，如图9-26所所示。示。两次单击两次单击“OK”按钮，得到分析结果。按钮，得到分析结果。2.2.结果分析结果分
36、析列联表（图）列出了表列联表（图）列出了表格单元的观测频数（上一格单元的观测频数（上一行）和在原假设下的期望行）和在原假设下的期望频数（下一行）。从列联频数（下一行）。从列联表中实际频数与期望频数表中实际频数与期望频数的对比可以看出，小的种的对比可以看出，小的种群患病比期望频数轻，大群患病比期望频数轻，大的种群患病比期望频数重，的种群患病比期望频数重，即患病程度与种群大小有即患病程度与种群大小有正的关联。正的关联。2统计量的值为统计量的值为67.0411，p值为值为0.0001，所以应拒绝，所以应拒绝原假设，作出结论：患病程度与种群大小是有关联的。原假设，作出结论：患病程度与种群大小是有关联的。而且，这里的而且，这里的c系数达系数达0.4280，说明患病程度与种群大小，说明患病程度与种群大小的关联度是相当大的。的关联度是相当大的。

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第九章-属性(分类)数据分析课件.ppt
链接地址：https://www.163wenku.com/p-4622925.html

晟晟文业

内容提供者

实名认证

联系作者