(STATA教程)第12章-聚类分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《(STATA教程)第12章-聚类分析课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- STATA教程 STATA 教程 12 聚类分析 课件
- 资源描述:
-
1、第12章 聚类分析 聚类分析13.1.1 聚类分析的基本原理13.1.2 层次聚类13.1.3 K-均值聚类13.1.4 聚类分析的Stata命令n把把“对象对象”分成不同的类别分成不同的类别l这些类不是事先给定的,而是直接根据数据的特征这些类不是事先给定的,而是直接根据数据的特征确定的确定的n把相似的东西放在一起,从而使得类别内部的把相似的东西放在一起,从而使得类别内部的“差异差异”尽可能小,而类别之间的尽可能小,而类别之间的“差异差异”尽可能大尽可能大n聚类分析就是按照对象之间的聚类分析就是按照对象之间的“相似相似”程度把对象进行程度把对象进行分类分类什么是聚类分析?(cluster an
2、alysis)n聚类分析的聚类分析的“对象对象”可以是所观察的多个样本,也可以可以是所观察的多个样本,也可以是针对每个样本测得的多个变量是针对每个样本测得的多个变量n按照变量对所观察的样本进行分类称为按照变量对所观察的样本进行分类称为Q Q型聚类型聚类l按照多项经济指标按照多项经济指标(变量变量)对不同的地区对不同的地区(样本样本)进行进行分类分类n按照样本对多个变量进行分类,则称为按照样本对多个变量进行分类,则称为R R型聚类型聚类l按照不同地区的样本数据对多个经济变量进行分类按照不同地区的样本数据对多个经济变量进行分类n两种聚类没有什么本质区别,实际中人们更感兴趣的通两种聚类没有什么本质区
3、别,实际中人们更感兴趣的通常是根据变量对样本进行分类常是根据变量对样本进行分类(Q(Q型聚类型聚类)什么是聚类分析?(两种分类方式)n按对象的按对象的“相似相似”程度分类程度分类n根据样本的观测数据测度变量之间的相似性程度可以使根据样本的观测数据测度变量之间的相似性程度可以使用夹角余弦、用夹角余弦、PearsonPearson相关系数等工具,也称为相关系数等工具,也称为相似系数相似系数l变量间的相似系数越大,说明它们越相近变量间的相似系数越大,说明它们越相近n根据变量来测度样本之间的相似程度则使用根据变量来测度样本之间的相似程度则使用“距离距离”l把离得比较近的归为一类,而离得比较远的放在不把
4、离得比较近的归为一类,而离得比较远的放在不同的类同的类什么是聚类分析?(按什么分类)相似性的度量(样本点间距离的计算方法)Euclidean距离距离Squared Euclidean距离距离Block距离距离Chebychev距离距离Minkovski距离距离piiiyx12)(qpiqiiyx1iiyx maxpiiiyx12)(piiiyx1n在对变量进行分类时,度量变量之间的相似性常用相似在对变量进行分类时,度量变量之间的相似性常用相似系数,测度方法有系数,测度方法有相似性的度量(变量相似系数的计算方法)夹角余弦夹角余弦 Pearson相关系数相关系数iiiiiiixyyxyx22cos
5、iiiiiiixyyyxxyyxxr22)()()(n层次聚类又称系统聚类层次聚类又称系统聚类n事先不确定要分多少类,而是先把每一个对象作为一类事先不确定要分多少类,而是先把每一个对象作为一类,然后一层一层进行分类,然后一层一层进行分类n根据运算的方向不同,层次聚类法又分为根据运算的方向不同,层次聚类法又分为合并法合并法和和分解分解法法,两种方法的运算原理一样,只是方向相反,两种方法的运算原理一样,只是方向相反层次聚类(hierarchical cluster)n将每一个样本作为一类,如果是将每一个样本作为一类,如果是k个样本就分个样本就分k成类成类n按照某种方法度量样本之间的距离,并将距离最
6、近的两按照某种方法度量样本之间的距离,并将距离最近的两个样本合并为一个类别,从而形成了个样本合并为一个类别,从而形成了k-1个类别个类别n再计算出新产生的类别与其他各类别之间的距离,并将再计算出新产生的类别与其他各类别之间的距离,并将距离最近的两个类别合并为一类。这时,如果类别的个距离最近的两个类别合并为一类。这时,如果类别的个数仍然大于数仍然大于1,则继续重复这一步,直到所有的类别都合,则继续重复这一步,直到所有的类别都合并成一类为止并成一类为止n总是先把离得最近的两个类进行合并总是先把离得最近的两个类进行合并l合并越晚的类,距离越远合并越晚的类,距离越远l事先并不会指定最后要分成多少类,而
7、是把所有可事先并不会指定最后要分成多少类,而是把所有可能的分类都列出,再视具体情况选择一个合适的分能的分类都列出,再视具体情况选择一个合适的分类结果类结果 层次聚类(合并法)n分解方法原理与合并法相反分解方法原理与合并法相反n先把所有的对象先把所有的对象(样本或变量样本或变量)作为一大类,然后度量对作为一大类,然后度量对象之间的距离或相似程度,并将距离或相似程度最远的象之间的距离或相似程度,并将距离或相似程度最远的对象分离出去,形成两大类对象分离出去,形成两大类(其中的一类只有一个对象其中的一类只有一个对象)n再度量类别中剩余对象之间的距离或相似程度,并将最再度量类别中剩余对象之间的距离或相似
展开阅读全文