spss使用教程-聚类分析与判别分析-课课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《spss使用教程-聚类分析与判别分析-课课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- spss 使用 教程 聚类分析 判别分析 课件
- 资源描述:
-
1、SPSS 16实用教程第第8章章 聚类分析与判别分析聚类分析与判别分析1ppt课件聚类分析与判别分析的基本概念聚类分析与判别分析的基本概念8.1层次聚类分析中的层次聚类分析中的QQ型聚类型聚类8.2层次聚类分析中的层次聚类分析中的R R型聚类型聚类8.3快速聚类分析快速聚类分析8.4判判 别别 分分 析析8.52ppt课件 本章介绍统计学中经常使用的分类统计分本章介绍统计学中经常使用的分类统计分析方法析方法聚类分析与判别分析。主要内容有聚类分析与判别分析。主要内容有层次聚类分析、快速聚类分析和判别分析。其层次聚类分析、快速聚类分析和判别分析。其中层次聚类分析根据聚类的对象不同分成中层次聚类分析
2、根据聚类的对象不同分成Q Q型型聚类和聚类和R R型聚类。型聚类。3ppt课件 统计学研究这类问题的常用分类统计方法统计学研究这类问题的常用分类统计方法主要有聚类分析(主要有聚类分析(cluster analysiscluster analysis)与判)与判别分析(别分析(discriminantdiscriminant analysis analysis)。其中聚)。其中聚类分析是统计学中研究这种类分析是统计学中研究这种“物以类聚物以类聚”问题问题的一种有效方法,它属于统计分析的范畴。聚的一种有效方法,它属于统计分析的范畴。聚类分析的实质是建立一种分类方法,它能够将类分析的实质是建立一种分
3、类方法,它能够将一批样本数据按照他们在性质上的亲密程度在一批样本数据按照他们在性质上的亲密程度在没有先验知识的情况下自动进行分类。这里所没有先验知识的情况下自动进行分类。这里所说的类就是一个具有相似性的个体的集合,不说的类就是一个具有相似性的个体的集合,不同类之间具有明显的区别。同类之间具有明显的区别。4ppt课件 聚类分析是一种探索性的分析,在分类的聚类分析是一种探索性的分析,在分类的过程中,人们不必事先给出一个分类的标准,过程中,人们不必事先给出一个分类的标准,聚类分析能够从样本数据出发,自动进行分类。聚类分析能够从样本数据出发,自动进行分类。聚类分析所使用方法的不同,常常会得到不同聚类分
4、析所使用方法的不同,常常会得到不同的结论。不同研究者对于同一组数据进行聚类的结论。不同研究者对于同一组数据进行聚类分析,所得到的聚类数未必一致。因此我们说分析,所得到的聚类数未必一致。因此我们说聚类分析是一种探索性的分析方法。聚类分析是一种探索性的分析方法。5ppt课件 对个案的聚类分析类似于判别分析,都是对个案的聚类分析类似于判别分析,都是将一些观察个案进行分类。聚类分析时,个案将一些观察个案进行分类。聚类分析时,个案所属的群组特点还未知。也就是说,在聚类分所属的群组特点还未知。也就是说,在聚类分析之前,研究者还不知道独立观察组可以分成析之前,研究者还不知道独立观察组可以分成多少个类,类的特
5、点也无所得知。多少个类,类的特点也无所得知。6ppt课件 变量的聚类分析类似于因素分析。两者都变量的聚类分析类似于因素分析。两者都可用于辨别变量的相关组别。不同在于,因素可用于辨别变量的相关组别。不同在于,因素分析在合并变量的时候,是同时考虑所有变量分析在合并变量的时候,是同时考虑所有变量之间的关系;而变量的聚类分析,则采用层次之间的关系;而变量的聚类分析,则采用层次式的判别方式,根据个别变量之间的亲疏程度式的判别方式,根据个别变量之间的亲疏程度逐次进行聚类。逐次进行聚类。7ppt课件 聚类分析的方法,主要有两种,一种是聚类分析的方法,主要有两种,一种是“快速聚类分析方法快速聚类分析方法”(K
6、 KMeans Cluster Means Cluster AnalyAnaly-sis-sis),另一种是),另一种是“层次聚类分析方层次聚类分析方法法”(Hierarchical Cluster AnalysisHierarchical Cluster Analysis)。)。如果观察值的个数多或文件非常庞大(通常观如果观察值的个数多或文件非常庞大(通常观察值在察值在200200个以上),则宜采用快速聚类分析个以上),则宜采用快速聚类分析方法。因为观察值数目巨大,层次聚类分析的方法。因为观察值数目巨大,层次聚类分析的两种判别图形会过于分散,不易解释。两种判别图形会过于分散,不易解释。8pp
7、t课件 判别分析是一种有效的对个案进行分类分判别分析是一种有效的对个案进行分类分析的方法。和聚类分析不同的是,判别分析时,析的方法。和聚类分析不同的是,判别分析时,组别的特征已知。如银行为了对贷款进行管理,组别的特征已知。如银行为了对贷款进行管理,需要预测哪些类型的客户可能不会按时归还贷需要预测哪些类型的客户可能不会按时归还贷款。已知过去几年中,款。已知过去几年中,900900个客户的贷款归还个客户的贷款归还信誉度,据此可以将客户分成两组:可靠客户信誉度,据此可以将客户分成两组:可靠客户和不可靠客户。和不可靠客户。9ppt课件 再通过收集客户的一些资料,如年龄、工再通过收集客户的一些资料,如年
8、龄、工资收入、教育程度、存款等,将这些资料作为资收入、教育程度、存款等,将这些资料作为自变量。通过判别分析,建立判别函数。那么,自变量。通过判别分析,建立判别函数。那么,如果有如果有150150个新的客户提交贷款请求,就可以个新的客户提交贷款请求,就可以利用创建好的判别函数,对新的客户进行分析,利用创建好的判别函数,对新的客户进行分析,从而判断新的客户是属于可靠客户类,还是不从而判断新的客户是属于可靠客户类,还是不可靠客户类。可靠客户类。10ppt课件 层次聚类分析是根据观察值或变量之间的层次聚类分析是根据观察值或变量之间的亲疏程度,将最相似的对象结合在一起,以逐亲疏程度,将最相似的对象结合在
9、一起,以逐次聚合的方式(次聚合的方式(Agglomerative Agglomerative ClusteringClustering),它将观察值分类,直到最后),它将观察值分类,直到最后所有样本都聚成一类。所有样本都聚成一类。11ppt课件 层次聚类分析有两种形式,一种是对样层次聚类分析有两种形式,一种是对样本(个案)进行分类,称为本(个案)进行分类,称为Q Q型聚类,它使具型聚类,它使具有共同特点的样本聚齐在一起,以便对不同类有共同特点的样本聚齐在一起,以便对不同类的样本进行分析;另一种是对研究对象的观察的样本进行分析;另一种是对研究对象的观察变量进行分类,称为变量进行分类,称为R R型
10、聚类。它使具有共同型聚类。它使具有共同特征的变量聚在一起,以便从不同类中分别选特征的变量聚在一起,以便从不同类中分别选出具有代表性的变量作分析,从而减少分析变出具有代表性的变量作分析,从而减少分析变量的个数。量的个数。12ppt课件 本节讲述本节讲述Q Q型聚类的原理和型聚类的原理和SPSSSPSS的实现过的实现过程,下一节将讲述程,下一节将讲述R R型聚类的实现过程。型聚类的实现过程。13ppt课件 定义:层次聚类分析中的定义:层次聚类分析中的Q Q型聚类,它使型聚类,它使具有共同特点的样本聚齐在一起,以便对不同具有共同特点的样本聚齐在一起,以便对不同类的样本进行分析。类的样本进行分析。8.
11、2.1 统计学上的定义和计算公式统计学上的定义和计算公式14ppt课件 层次聚类分析中,测量样本之间的亲疏程层次聚类分析中,测量样本之间的亲疏程度是关键。聚类的时候会涉及到两种类型亲疏度是关键。聚类的时候会涉及到两种类型亲疏程度的计算:一种是样本数据之间的亲疏程度,程度的计算:一种是样本数据之间的亲疏程度,一种是样本数据与小类、小类与小类之间的亲一种是样本数据与小类、小类与小类之间的亲疏程度。下面讲述这两种类型亲疏程度的计算疏程度。下面讲述这两种类型亲疏程度的计算方法和公式。方法和公式。15ppt课件 计算公式如下。计算公式如下。样本数据之间的亲疏程度主要通过样本之样本数据之间的亲疏程度主要通
12、过样本之间的距离、样本间的相关系数来度量。间的距离、样本间的相关系数来度量。SPSSSPSS根根据变量数据类型的不同,采用不同的测定亲疏据变量数据类型的不同,采用不同的测定亲疏程度的方法。程度的方法。16ppt课件 样本若有样本若有k k个变量,则可以将样本看成是个变量,则可以将样本看成是一个一个k k维的空间的一个点,样本和样本之间的维的空间的一个点,样本和样本之间的距离就是距离就是k k维空间点和点之间的距离,这反映维空间点和点之间的距离,这反映了样本之间的亲疏程度。聚类时,距离相近的了样本之间的亲疏程度。聚类时,距离相近的样本属于一个类,距离远的样本属于不同类。样本属于一个类,距离远的样
13、本属于不同类。1连续变量的样本距离测量方法连续变量的样本距离测量方法17ppt课件 (1 1)欧氏距离()欧氏距离(Euclidean DistanceEuclidean Distance)两个样本之间的欧氏距离是样本各个变量值之两个样本之间的欧氏距离是样本各个变量值之差的平方和的平方根,计算公式为差的平方和的平方根,计算公式为18ppt课件 (2 2)欧氏距离平方()欧氏距离平方(Squared Squared Euclidean DistanceEuclidean Distance)两个样本之间的欧氏距离平方是各样本每两个样本之间的欧氏距离平方是各样本每个变量值之差的平方和,计算公式为个变
14、量值之差的平方和,计算公式为19ppt课件 (3 3)ChebychevChebychev距离距离 两个样本之间的两个样本之间的ChebychevChebychev距离是各样距离是各样本所有变量值之差绝对值中的最大值,计算公本所有变量值之差绝对值中的最大值,计算公式为式为20ppt课件 (4 4)BlockBlock距离距离 两个样本之间的两个样本之间的BlockBlock距离是各样本所距离是各样本所有变量值之差绝对值的总和,计算公式为有变量值之差绝对值的总和,计算公式为21ppt课件 (5 5)MinkowskiMinkowski距离距离 两个样本之间的两个样本之间的MinkowskiMin
15、kowski距离是各样距离是各样本所有变量值之差绝对值的本所有变量值之差绝对值的p p次方的总和,再次方的总和,再求求p p次方根。计算公式为次方根。计算公式为22ppt课件 (6 6)CustomizedCustomized距离(用户自定义距离)距离(用户自定义距离)两个样本之间的两个样本之间的CustomizedCustomized距离是各样距离是各样本所有变量值之差绝对值的本所有变量值之差绝对值的p p次方的总和,再次方的总和,再求求q q次方根。计算公式为次方根。计算公式为23ppt课件 连续变量亲疏程度的度量,除了上面的各连续变量亲疏程度的度量,除了上面的各种距离外,还可以计算其他统
16、计指标。如种距离外,还可以计算其他统计指标。如PearsonPearson相关系数、相关系数、SosineSosine相似度等。相似度等。2连续变量的样本亲疏程度的其他测量方法连续变量的样本亲疏程度的其他测量方法24ppt课件25ppt课件3顺序或名义变量的样本亲疏程度测量顺序或名义变量的样本亲疏程度测量方法方法 对于此类变量,可以计算一些有关相似性对于此类变量,可以计算一些有关相似性的统计指标来测定样本间的亲疏程度。也可以的统计指标来测定样本间的亲疏程度。也可以通过下面两个计算公式来得到。通过下面两个计算公式来得到。26ppt课件27ppt课件28ppt课件4样本数据与小类、小类与小类之间的
17、样本数据与小类、小类与小类之间的亲疏程度测量方法亲疏程度测量方法 SPSS SPSS默认的变量为默认的变量为Var00001Var00001、Var00002Var00002等,用户也可以根据自己的需要来命名变量。等,用户也可以根据自己的需要来命名变量。SPSSSPSS变量的命名和一般的编程语言一样,有一变量的命名和一般的编程语言一样,有一定的命名规则,具体内容如下。定的命名规则,具体内容如下。29ppt课件 所谓小类,是在聚类过程中根据样本之间所谓小类,是在聚类过程中根据样本之间亲疏程度形成的中间类,小类和样本、小类与亲疏程度形成的中间类,小类和样本、小类与小类继续聚合,最终将所有样本都包括
18、在一个小类继续聚合,最终将所有样本都包括在一个大类中。大类中。在在SPSSSPSS聚类运算过程中,需要计算样本聚类运算过程中,需要计算样本与小类、小类与小类之间的亲疏程度。与小类、小类与小类之间的亲疏程度。SPSSSPSS提提供了多种计算方法(计算规则)。供了多种计算方法(计算规则)。30ppt课件 (1 1)最短距离法()最短距离法(Nearest NeighborNearest Neighbor)以当前某个样本与已经形成小类中的各样以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的本距离的最小值作为当前样本与该小类之间的距离。距离。31ppt课件 (2 2)最长距
19、离法()最长距离法(Furthest NeighborFurthest Neighbor)以当前某个样本与已经形成小类中的各样以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的本距离的最大值作为当前样本与该小类之间的距离。距离。32ppt课件 (3 3)类间平均链锁法()类间平均链锁法(Between-groups Between-groups LinkageLinkage)两个小类之间的距离为两个小类内所有样两个小类之间的距离为两个小类内所有样本间的平均距离。本间的平均距离。33ppt课件 (4 4)类内平均链锁法()类内平均链锁法(Within-groups Wi
20、thin-groups LinkageLinkage)与小类间平均链锁法类似,这里的平均距与小类间平均链锁法类似,这里的平均距离是对所有样本对的距离求平均值,包括小类离是对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对。之间的样本对、小类内的样本对。34ppt课件 (5 5)重心法()重心法(CentroidCentroid Clustering Clustering)将两小类间的距离定义成两小类重心间的将两小类间的距离定义成两小类重心间的距离。每一小类的重心就是该类中所有样本在距离。每一小类的重心就是该类中所有样本在各个变量上的均值代表点。各个变量上的均值代表点。35ppt课
21、件 (6 6)离差平方和法()离差平方和法(Wards MethodWards Method)小类合并的方法:在聚类过程中,使小类小类合并的方法:在聚类过程中,使小类内各个样本的欧氏距离总平方和增加最小的两内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。小类合并成一类。36ppt课件 研究问题研究问题 对一个班同学的数学水平进行聚类。聚类对一个班同学的数学水平进行聚类。聚类的依据是第一次数学考试的成绩和入学考试的的依据是第一次数学考试的成绩和入学考试的成绩。数据如表成绩。数据如表8-18-1所示。所示。8.2.2 SPSS中实现过程中实现过程37ppt课件姓姓 名名数数 学学入入 学学
22、 成成 绩绩hxh99.0098.00yaju88.0089.00yu79.0080.00shizg89.0078.00hah75.0078.00john60.0065.00watet79.0087.00jess75.0076.00wish60.0056.00Iiakii100.00100.0038ppt课件 实现步骤实现步骤39ppt课件40ppt课件41ppt课件42ppt课件43ppt课件44ppt课件 由于本例中选中的选项较多,这里按照各由于本例中选中的选项较多,这里按照各个结果分别解释。个结果分别解释。(1 1)首先是层次聚类分析的概要结果,)首先是层次聚类分析的概要结果,该结果是该
23、结果是SPSSSPSS输出结果文件中的第一个表格,输出结果文件中的第一个表格,如下表所示。如下表所示。8.2.3 结果和讨论结果和讨论45ppt课件 (2 2)输出的结果文件中第二个表格如下表)输出的结果文件中第二个表格如下表所示。所示。46ppt课件 (3 3)输出的结果文件中第三个表格为层)输出的结果文件中第三个表格为层次聚类分析的凝聚状态表,包括:次聚类分析的凝聚状态表,包括:47ppt课件 (4 4)输出的结果文件中第四个表格如下)输出的结果文件中第四个表格如下表所示。表所示。48ppt课件 (5 5)输出的结果文件中第五个表格如下)输出的结果文件中第五个表格如下表所示。表所示。49p
24、pt课件 (6 6)输出的结果文件中第六部分如图)输出的结果文件中第六部分如图8-8-7 7所示。所示。50ppt课件 (7 7)由于对图)由于对图8-6“Hierarchical 8-6“Hierarchical Cluster Analysis:Save New VarCluster Analysis:Save New Var”对话框对话框进行了设置,将聚类成三类时,各个样本的类进行了设置,将聚类成三类时,各个样本的类归属情况保存为一个变量,因此在归属情况保存为一个变量,因此在SPSSSPSS数据编数据编辑窗口中就新增了一个变量的值,如图辑窗口中就新增了一个变量的值,如图8-88-8所所示
25、。示。51ppt课件52ppt课件8.3.1 统计学上的定义和计算公式统计学上的定义和计算公式 定义:层次聚类分析中的定义:层次聚类分析中的R R型聚类是对研型聚类是对研究对象的观察变量进行分类,它使具有共同特究对象的观察变量进行分类,它使具有共同特征的变量聚在一起。以便可以从不同类中分别征的变量聚在一起。以便可以从不同类中分别选出具有代表性的变量作分析,从而减少分析选出具有代表性的变量作分析,从而减少分析变量的个数。变量的个数。53ppt课件 计算公式:计算公式:R R型聚类的计算公式和型聚类的计算公式和Q Q型聚型聚类的计算公式是类似的,不同的是类的计算公式是类似的,不同的是R R型聚类是
展开阅读全文