分类数据分析PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《分类数据分析PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 分类 数据 分析 PPT 课件
- 资源描述:
-
1、分类数据分析(优选)分类数据分析(优选)分类数据分析概概 述述 第七、八章介绍的估计和检验方法仅主第七、八章介绍的估计和检验方法仅主要针对数值型变量。而列联分析是针对分要针对数值型变量。而列联分析是针对分类变量进行分析的方法。类变量进行分析的方法。第第 9 章章 分类数据分析分类数据分析9.1 分类数据与分类数据与c c2统计量统计量 9.2 拟合优度拟合优度 检验检验9.3 列联分析:独立性检验列联分析:独立性检验9.4 列联表中的相关测量列联表中的相关测量9.5 列联分析中应注意的问题列联分析中应注意的问题学习目标学习目标1.解释列联表解释列联表进行进行 c c2 检验检验n拟合优度检验拟
2、合优度检验n独立性检验独立性检验3.测度列联表中的相关性测度列联表中的相关性分类数据分类数据分类变量的取值表现为类别n例如:性别(男,女)各类别可用符号或数字代码来测度n例如:性别(男用1表示,女用0表示)顺序数据也可以看作分类数据n原料的质量等级:一等品、二等品、三等品数值型数据也可以转化为分类数据n数学期末考试成绩是一个数值型数据,可以根据分数段将成绩为“优秀”、“良好”、“及格”和“不及格”几个类别对分类数据的描述和分析通常使用列联表列联表的构造列联表的构造列联表列联表(contingency table)由两个以上的变量交叉分类的频数分布表由两个以上的变量交叉分类的频数分布表行变量的类
3、别用行变量的类别用 r 表示,表示,ri 表示第表示第 i 个类别个类别列变量的类别用列变量的类别用 c 表示,表示,cj 表示第表示第 j 个类别个类别每种组合的观察频数用每种组合的观察频数用 fij 表示表示表中列出了行变量和列变量的所有可能的组表中列出了行变量和列变量的所有可能的组合,所以称为列联表合,所以称为列联表一个一个 R 行行 C 列的列联表称为列的列联表称为 R C 列联表列联表列联表的结构列联表的结构(2 2 列联表列联表)列联表的结构列联表的结构(r c 列联表的一般表示列联表的一般表示)列联表列联表(例题分析例题分析)列联表的分布列联表的分布观察值的分布观察值的分布边缘频
4、数边缘频数n行边缘分布(频数)行边缘分布(频数)l行观察值的合计数的分布行观察值的合计数的分布l例如,赞成改革方案的共有例如,赞成改革方案的共有279人,反对改革方案的人,反对改革方案的141人人n列边缘分布(频数)列边缘分布(频数)l列观察值的合计数的分布列观察值的合计数的分布l例如,四个分公司接受调查的人数分别为例如,四个分公司接受调查的人数分别为100人,人,120人,人,90人,人,110人人条条件分布与条件频数件分布与条件频数n表中每个具体的观察值都是变量表中每个具体的观察值都是变量 X 条件下变量条件下变量 Y 的的频数,或在变量频数,或在变量 Y 条件下变量条件下变量 X 的频数
5、,称为条件的频数,称为条件分布(频数)分布(频数)观察值的分布观察值的分布(图示图示)百分比分布百分比分布(概念要点概念要点)条件频数反映了数据的分布,但不适合对比n如二分公司赞成人数比一分公司多,并不表明二分公司比一分公司更赞成该方案,因为两公司调查人数不同。为在相同的基数上进行比较,可以计算相应的百分比,称为百分比分布百分比分布n行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)n列百分比:列的每一个观察频数除以相应的列合计数(fij/cj)n总百分比:每一个观察值除以观察值的总个数(fij/n)百分比分布百分比分布(图示图示)列联分析是利用列联表来研究:()A.两个分类变量的
6、关系 B.两个数值型变量的关系 C.一个分类变量和一个数值型变量的关系 D.两个数值型变量的分布 以下列联表中,最右边一列称为:()A.列边缘频数;B.行边缘频数;C.条件频数;D.总频数练练 习习(1)AB(3)对于学生宿舍上网收费的新措施,男女学生的抽样调查结果如下列联表所示,在男女生赞成的比例相同的前提下,男女生赞成该措施的期望频数分别为:()A.48和39 B.102和81 C.15和14 D.25和19 Ac c 统计量统计量概概 述述 c c2检验检验(Chi-square test)是现代统计是现代统计学的创始人之一,英国人学的创始人之一,英国人K.Pearson(1857-19
7、36)于)于1900年提出的一种具有广年提出的一种具有广泛用途的统计方法,因此又称为泛用途的统计方法,因此又称为Pearson c c2检验。可用于两个或多个率或构成比间检验。可用于两个或多个率或构成比间的比较,定性资料的关联度分析,拟合的比较,定性资料的关联度分析,拟合优度检验等等。优度检验等等。c c 统计量统计量用于检验列联表中变量间拟合优度和独立性用于检验列联表中变量间拟合优度和独立性检验统计量为:检验统计量为:或或c c2统计量可以看作是检验真实值与期望值的接近程度。统计量可以看作是检验真实值与期望值的接近程度。22211()(1)(1)rcijijijijfijijeijijfeR
8、Cecc列联表中第 行第 列类别的实际频数列联表中第 行第 列类别的期望频数 2221()(1)coejeefoffCffcc实际频数期望频数 c c 统统计计量量分布与自由度的关系(goodness of fit test)期望频数的分布(例题分析)相关系数 B.测度列联表中的相关性4 列联表中的相关测量H1:员工所在分公司和对改革方案的态度并非相互独立V=0表明列联表中的两个变量独立05,得出的结论是:()例如,四个分公司接受调查的人数分别为100人,120人,90人,110人一个分类变量和一个数值型变量的关系由两个以上的变量交叉分类的频数分布表(150/500)(140/500)*500
9、A.列联表中的相关测量(例题分析)H0:1=2=3=4行百分比:行的每一个观察频数除以相应的行合计数(fij/ri)H1:X和Y 不独立fij 表示第 i 行第 j 列的观察频数C 的数值大小取决于列联表的行数和列数,并随行数和列数的增大而增大c c 统计量统计量拟合优度检验:拟合优度检验:用于检验一个分类变量中各类别的期望频数和观察频数用于检验一个分类变量中各类别的期望频数和观察频数是否有显著差异。是否有显著差异。其实际为假设检验其实际为假设检验在原假设为观察频数和实际频数一致的前提下,有如下在原假设为观察频数和实际频数一致的前提下,有如下检验统计量:检验统计量:221()1coejeefo
10、fffCfc每一类别的观察频数每一类别的期望频数其自由度为式中:拟合优度检验的期望频数的拟合优度检验的期望频数的计算计算 若可求出第若可求出第i行第行第j列元素的期望概率列元素的期望概率pij,则一个实际频数则一个实际频数 fij 的期望频数的期望频数eij,是总频,是总频数的个数数的个数 n 乘以该实际频数乘以该实际频数 fij 的期望概的期望概率率pijijijen p 期望频数的计算举例期望频数的计算举例 举例:要检验各分公司对某项改革方案的举例:要检验各分公司对某项改革方案的看法是否相同?看法是否相同?期望频数的分布期望频数的分布(例题分析例题分析)在全部在全部420个样本中,赞成改革
11、方案的人数为个样本中,赞成改革方案的人数为279,占,占66.4%;反对的人数占;反对的人数占33.6%。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对)。在各分公司对改革方案看法相同的前提下,各分公司赞成(反对)这项改革不同态度的期望频数为分公司总样本数这项改革不同态度的期望频数为分公司总样本数*66.4%(33.6%)。等价于)。等价于检验各分公司赞成方案的实际频数与期望频数是否一致。检验各分公司赞成方案的实际频数与期望频数是否一致。期望频数的分布期望频数的分布(例题分析例题分析)?等价于检验三个公司的期望购买人数和实际购买人数是否一致。等价于检验三个公司的期望购买人数和实际购买
12、人数是否一致。拟合优度检验拟合优度检验(例题分析例题分析1-1)【例例9.1】1912年4月15日,豪华巨轮泰坦尼克号与冰山相撞沉没。当时船上共有共2208人,其中男性1738人,女性470人。海难发生后,幸存者为718人,其中男性374人,女性344人,以的显著性水平(0.05)检验存活状况与性别是否有关。拟合优度检验拟合优度检验(例题分析例题分析1-2)分析:分析:在这次海难中,幸存者共在这次海难中,幸存者共718人,即总存活比例为人,即总存活比例为718/2208=0.325。若存活状况与性别无关,则男性存活。若存活状况与性别无关,则男性存活的期望人数为:的期望人数为:0.325 173
13、8565人,女性存活的期望人人,女性存活的期望人数为:数为:0.325 470153人,若男女性期望的存活人数和人,若男女性期望的存活人数和实际的存活人数非常接近,则可以认为存活率与性别无关实际的存活人数非常接近,则可以认为存活率与性别无关,反之,则认为存状况与性别相关。因此可以利用,反之,则认为存状况与性别相关。因此可以利用c c2统计统计量来检验。量来检验。4702208拟拟合合优优度度检检验验(例例题题分分析析1-3)H0:生存状况与性别无关生存状况与性别无关(观察频数与期望频数一致)H1:生存状况与性别相关(生存状况与性别相关(观察频数与期望频数不一致)=0.05df=(2-1)=1临
14、界值临界值(s):221()303coejefffc拟合优度检验拟合优度检验(例题分析例题分析2-1)【例例】一项统计结果声称:某市老年人口(年龄在65岁以上)所占的比例为14.7%,该市老年人口研究会为了检验该项统计是否可靠,随机抽选了400名居民,发现其中有57人年龄在65岁以上。调查结果是否支持该市老年人口比例为14.7%的说法?(=0.05)。拟合优度检验拟合优度检验(例题分析例题分析2-2)解:解:要回答观察的老年人数与期望的老年人数是否一致,检验如下假设:H0:老年人口比例为14.7%(观察频数与期望频数一致)H1:老年人口比例并非14.7%(观察频数与期望频数不一致)老年人老年人
15、非老年人非老年人实际人数57343期望人数5000.147595000.853341拟拟合合优优度度检检验验(例例题题分分析析2-3)=0.05df=(2-1)=1临界值临界值(s):注意:教材注意:教材P223中作的双侧检验中作的双侧检验有误。有误。221()0.0795coejefffc拟合优度检验拟合优度检验(例题分析例题分析2-1)注意:第注意:第8章介绍的总体比例检验只能用于二项分章介绍的总体比例检验只能用于二项分布,而布,而c c2统计量可用于多项分布的比例检验。统计量可用于多项分布的比例检验。两个变量的独立性两个变量的独立性检验检验独立变量检验独立变量检验(goodness of
展开阅读全文