管理决策模型与方法-聚类分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《管理决策模型与方法-聚类分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 管理 决策 模型 方法 聚类分析 课件
- 资源描述:
-
1、管理决策模型与方法管理决策模型与方法(聚类分析部分聚类分析部分)(适用于信息管理与信息系统、工商管理专业适用于信息管理与信息系统、工商管理专业 30H)主讲教师:屈春艳主讲教师:屈春艳工商管理学院信息管理教研室第三章第三章 聚类分析聚类分析 聚类分析,亦称群分析或点群分析,它是聚类分析,亦称群分析或点群分析,它是研究对样品或指标进行分类的一种多元统计研究对样品或指标进行分类的一种多元统计分析方法分析方法(它是研究多要素事物分类问题的数它是研究多要素事物分类问题的数量方法量方法)。所谓的类通俗地说就是相似元素的。所谓的类通俗地说就是相似元素的集合。集合。什么是分类?什么是分类?分类是将一个观测对
2、象指定到某一类分类是将一个观测对象指定到某一类(组组)。工商管理学院信息管理教研室 分类的问题可以分成两种:分类的问题可以分成两种:一种是对当前所研究的问题已知它的类一种是对当前所研究的问题已知它的类别数目,且知道各类的特征别数目,且知道各类的特征(如分布规律、或如分布规律、或知道来自各类的训练样本知道来自各类的训练样本),我们的目的是要,我们的目的是要将另一些未知类别的个体正确归属于其中某将另一些未知类别的个体正确归属于其中某一类,这是判别分析所要解决的问题。一类,这是判别分析所要解决的问题。另一种是事先不知道研究问题应分成几另一种是事先不知道研究问题应分成几类,更不知道观测的个体的具体分类
3、情况,类,更不知道观测的个体的具体分类情况,我们的目的正是需要通过对观测数据所进行我们的目的正是需要通过对观测数据所进行的分析处理,选定一种度量个体接近程度的的分析处理,选定一种度量个体接近程度的统计量、确定分类数目、建立一种分类方法,统计量、确定分类数目、建立一种分类方法,工商管理学院信息管理教研室 并按亲近程度对观测对象给出合理的分类。并按亲近程度对观测对象给出合理的分类。这种问题在实际中大量存在,它正是聚类分这种问题在实际中大量存在,它正是聚类分析所要解决的问题。析所要解决的问题。工商管理学院信息管理教研室第一节第一节 聚类分析的方法聚类分析的方法 聚类分析的职能是建立一种分类方法,聚类
4、分析的职能是建立一种分类方法,其基本原理是,根据样品其基本原理是,根据样品(本本)自身的属性,自身的属性,用数学方法按照某些相似性或差异性指标,用数学方法按照某些相似性或差异性指标,定量地确定样本之间的亲疏关系,并按这种定量地确定样本之间的亲疏关系,并按这种亲疏关系程度对样本进行聚类。亲疏关系程度对样本进行聚类。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 聚类分析的内容十分丰富,按其聚类的方聚类分析的内容十分丰富,按其聚类的方法可分为以下几种:法可分为以下几种:1 1、系统聚类法:开始每个对象自成一类,、系统聚类法:开始每个对象自成一类,然后每次将最相似的两类合并,合并后重新然后每
5、次将最相似的两类合并,合并后重新计算新类与其它类的距离或相近性测度。这计算新类与其它类的距离或相近性测度。这一过程一直继续直到所有对象归为一类为止。一过程一直继续直到所有对象归为一类为止。2、调优法、调优法(动态聚类法动态聚类法):首选对:首选对n个对个对象初步分类,然后根据分类的损失函数尽可象初步分类,然后根据分类的损失函数尽可能小的原则对分类进行调整,直到分类合理能小的原则对分类进行调整,直到分类合理为止。为止。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 3 3、最优分割法、最优分割法(有序样品聚类法有序样品聚类法):开始:开始将所有样品看成一类,然后根据某种最优准将所有样品看
6、成一类,然后根据某种最优准则将它们分割为二类、三类,一直分割到所则将它们分割为二类、三类,一直分割到所需的需的k k类为止。这种方法适用于有序样品的分类为止。这种方法适用于有序样品的分类问题,也称为有序样品的聚类法。类问题,也称为有序样品的聚类法。4、模糊聚类法:利用模糊集理论来处、模糊聚类法:利用模糊集理论来处理分类问题,它对经济领域中具有模糊特征理分类问题,它对经济领域中具有模糊特征的两态数据或多态数据具有明显的分类效果。的两态数据或多态数据具有明显的分类效果。工商管理学院信息管理教研室聚类分析的方法聚类分析的方法 5、图论聚类法:利用图论中最小支撑树的概念来处理分类问题,创造了独具风格的
7、方法。6、聚类预报法:利用聚类方法处理预报问题,在多元统计分析中,可用来做预报的方法很多,如回归分析和判断分析。但对一些异常数据,如气象中的灾害性天气的预报,回归或判断分析处理的效果都不好,而聚类预报弥补了这一不足,这是一个值得重视的方法。工商管理学院信息管理教研室R R型聚类分析型聚类分析 聚类分析根据分类对象的不同分为R型和Q型在大类。R型是对变量(指标)进行分类处理,R型聚类分析的目的有以下方面:(1)可以了解变量间及变量组合间的亲疏关系;(2)对变量进行分类;(3)根据分类结果及它们之间的关系,在每一类中选择有代表性的变量作为重要变量,利用少数几个重要变量进一步作分析计算,如进行回归分
8、析或Q型聚类分析等。工商管理学院信息管理教研室Q Q型聚类分析型聚类分析 Q Q型是对样品进行分类处理。型是对样品进行分类处理。Q Q型聚类分型聚类分析的目的主要是对样品进行分类。分类的结析的目的主要是对样品进行分类。分类的结果是直观的,且比传统分类方法更细致、全果是直观的,且比传统分类方法更细致、全面、合理。面、合理。当然使用不同的分类方法通常会得到不当然使用不同的分类方法通常会得到不同的分类结果。对任何观测数据都没有惟一同的分类结果。对任何观测数据都没有惟一“正确的正确的”的分类方法。实际应用中,常采的分类方法。实际应用中,常采用不同的分类方法,对数据进行分析计算,用不同的分类方法,对数据
9、进行分析计算,以便对分类提供意见,并由实际工作者决定以便对分类提供意见,并由实际工作者决定所需要的分类数及分类情况。所需要的分类数及分类情况。工商管理学院信息管理教研室第二节第二节 聚类要素的数据处理聚类要素的数据处理 为了对样品为了对样品(或变量或变量)进行分类,就必须进行分类,就必须研究它们之间的关系。描述样品间亲疏相似研究它们之间的关系。描述样品间亲疏相似程度的统计量很多,目前用得最多的是距离程度的统计量很多,目前用得最多的是距离和相似系数,这两个统计量与变量的类型密和相似系数,这两个统计量与变量的类型密切相关,为此我们首选分析一下变量的类型。切相关,为此我们首选分析一下变量的类型。工商
10、管理学院信息管理教研室一、变量的类型一、变量的类型 根据变量取值的不同可将变量分为以下几根据变量取值的不同可将变量分为以下几种:种:1 1、名义变量:、名义变量:变量值是几个没有次序之变量值是几个没有次序之分的不同状态,它给变量值赋予名称。例如,分的不同状态,它给变量值赋予名称。例如,性别、汽车品牌性别、汽车品牌、职业、血型、是否患病、职业、血型、是否患病、喜爱的颜色等等都是名义变量。喜爱的颜色等等都是名义变量。2 2、有序变量:、有序变量:变量值是严格有次序的不变量值是严格有次序的不同状态。例如产品按质量分为:不好、一般、同状态。例如产品按质量分为:不好、一般、好、很好。文化程度分为高、中、
11、低等。好、很好。文化程度分为高、中、低等。工商管理学院信息管理教研室一、变量的类型一、变量的类型 3、区间变量、区间变量(或间隔变量或间隔变量):区间变量是区间变量是有顺序大小的数值变量,且数值间的差值是有顺序大小的数值变量,且数值间的差值是有意义的。例如考虑温度,有意义的。例如考虑温度,40度比度比10度热度热30度,而度,而40度和度和10度是相对于人们取定的度是相对于人们取定的0度而度而言的。这类变量对减法:两值之差是意义的;言的。这类变量对减法:两值之差是意义的;但对两值的比率是没有意义的。但对两值的比率是没有意义的。4 4、比率变量、比率变量(比例变量比例变量):比率变量也比率变量也
12、是数值变量,不仅数值之差有意义,而且要是数值变量,不仅数值之差有意义,而且要求有绝对的零点,两数值的比率也是很重要。求有绝对的零点,两数值的比率也是很重要。工商管理学院信息管理教研室 上述四类变量中,名义变量和有序变量也上述四类变量中,名义变量和有序变量也称为属性变量称为属性变量(或定性变量或定性变量),有时也称为离,有时也称为离散变量;而区间变量和比率变量称为定量变散变量;而区间变量和比率变量称为定量变量,有时也称为连续变量。量,有时也称为连续变量。不同类型的变量在定义距离或相似性质不同类型的变量在定义距离或相似性质测度时有很大差异。本章主要讨论定量数据测度时有很大差异。本章主要讨论定量数据
13、的聚类分析问题。的聚类分析问题。工商管理学院信息管理教研室二、聚类要素的数据处理二、聚类要素的数据处理 在聚类分析中,聚类要素的选择是十分重要的,在聚类分析中,聚类要素的选择是十分重要的,它直接影响分类结果的准确性和可靠性。在分类研它直接影响分类结果的准确性和可靠性。在分类研究中,被聚类的对象常常是多个要素构成的。不同究中,被聚类的对象常常是多个要素构成的。不同要素的数据往往具有不同的单位和量纲,因而其数要素的数据往往具有不同的单位和量纲,因而其数值的差异可能是很大的,这就会对分类结果产生影值的差异可能是很大的,这就会对分类结果产生影响。因此当分类要素的对象确定之后,在进行聚类响。因此当分类要
14、素的对象确定之后,在进行聚类分析之前,还要对聚类要素进行数据处理。分析之前,还要对聚类要素进行数据处理。假设有假设有m个被聚类的对象个被聚类的对象(样品样品),每一个被聚类,每一个被聚类对象对象(样品样品)都有都有X1,X2,Xn个要素个要素(指标或变指标或变量量)构成。它们所对应的要素数据可用表构成。它们所对应的要素数据可用表3 31 1给出。给出。工商管理学院信息管理教研室表表31 观测数据及特征值观测数据及特征值 变量变量样品样品X1Xj XnX(1)x11 x1j x1n X(i)xi1 xij xin X(m)xm1 xmj xmn均均 值值标准差标准差s1 sj sn工商管理学院信
15、息管理教研室1xjxnx表3-1中 均值工商管理学院信息管理教研室),2,1(11njxmxmiijj标准差),2,1()(1112njxxmsmijijj1 1、中心化变换、中心化变换(标准化标准化)分别求出各聚类要素所对应的均值,以各要素的数据减去相应要素的均值,即工商管理学院信息管理教研室),2,1;,2,1(*njmixxxjijij 中心化变换是一种标准化处理方法,变换后数据的均值为0,而协差不变,即协差阵为)(*ijsSS 其中 工商管理学院信息管理教研室mttjtimtjtjitiijxxmxxxxms1*111)(11 中心化变换是一种方便地计算样本协差阵的变换。2 2、总和标
16、准化变换、总和标准化变换 分别求出各聚类要素所对应的数据的总和,以各要素的数据除以该要素数据的总和,即工商管理学院信息管理教研室),2,1;,2,1(1*njmixxxmiijijij 这种标准化方法所得的新数据 工商管理学院信息管理教研室*ijx满足),2,1(11*njxmiij3 3、标准差的标准化、标准差的标准化(标准化变换标准化变换)即 工商管理学院信息管理教研室),2,1;,2,1(*njmisxxxjjijij 这种标准化方法所得的新数据*ijx各要素的平均值为0,标准差为1,即有 1)(11,0112*1*mijijjmiijjxxmsxmx而且标准化后的数据*ijx与变量的量
17、纲无关。4 4、极大值标准化、极大值标准化(变换变换)即工商管理学院信息管理教研室 经过这种标准化所得的新数据,各要素经过这种标准化所得的新数据,各要素的极大值为的极大值为1 1,其余各数值小于,其余各数值小于1 1。),2,1;,2,1(max*njmixxxijiijij5 5、极差正规化变换、极差正规化变换(规格化变换规格化变换)即工商管理学院信息管理教研室 经过这种标准化所得的新数据,各要素的极大值为1,极小值为0;极差为1,其余的数值均在0与1之间。数据是无量纲的量。),2,1;,2,1(minmaxmin*njmixxxxxijiijiijiijij举例举例 表表3-23-2给出了
18、某地区九个农业区的七项给出了某地区九个农业区的七项经济指标,其极差正规化变换处理后的数据经济指标,其极差正规化变换处理后的数据如表如表3-33-3所示。所示。工商管理学院信息管理教研室表表3 32 2 某地区九个农业区的七项经济指标数据某地区九个农业区的七项经济指标数据 工商管理学院信息管理教研室区代号区代号 指指 标标 人均耕地人均耕地x x1 1(亩亩/人人)劳均耕地劳均耕地x x2 2(亩亩/个个)水田比重水田比重x x3 3(%)(%)复种指数复种指数x x4 4(%)(%)粮食亩产粮食亩产x x5 5(kg/(kg/亩亩)人均粮食人均粮食x x6 6(kg/(kg/人人)稻谷占粮食稻
19、谷占粮食比重比重x x7 7(%)(%)G14.414.4116.4016.405.635.63 113.60113.60 300.70300.701036.401036.4012.2012.20G24.724.7214.5714.570.390.3995.1095.10 184.90184.90 683.70683.700.850.85G31.841.844.474.475.285.28 148.50148.50 462.30462.30 611.10611.106.496.49G42.692.697.917.910.390.39 111.00111.00 297.20297.20 632.
20、60632.600.920.92G51.221.223.183.1872.0472.04 217.80217.80 816.60816.60 791.10791.1080.3880.38G61.231.233.163.1643.7843.78 179.60179.60 598.20598.20 636.50636.5048.1748.17G71.121.122.722.7265.1565.15 194.70194.70 712.60712.60 634.30634.3080.1780.17G84.404.409.999.995.355.3594.9094.90 245.30245.30 771
21、.70771.707.807.80G92.502.506.216.212.902.9094.8094.80 282.10282.10 574.60574.601.171.17表表3 33 3 极差正规化变换处理后的数据极差正规化变换处理后的数据 工商管理学院信息管理教研室区代号区代号 指指 标标 x1x2x3x4x5x6x7G10.910.911.001.000.070.070.150.150.180.181.001.000.140.14G21.001.000.870.870.000.000.000.000.000.000.240.240.000.00G30.200.200.150.150.0
22、70.070.440.440.440.440.080.080.070.07G40.440.440.380.380.000.000.130.130.180.180.130.130.000.00G50.030.030.030.031.001.001.001.001.001.000.450.451.001.00G60.030.030.030.030.610.610.690.690.650.650.130.130.590.59G70.000.000.000.000.900.900.810.810.840.840.130.131.001.00G80.910.910.530.530.070.070.000
23、.000.100.100.430.430.090.09G90.380.380.260.260.040.040.000.000.150.150.000.000.000.006 6、极差标准化变换、极差标准化变换 即工商管理学院信息管理教研室),2,1;,2,1(minmax*njmixxxxxijiijijijij 极差标准化变换变换后的数据,每个变量的样本均值为0,极差为1,且1*ijx,在 以后的分析计算中可以减少误差的产生;同时变化后的数据也是无量纲的量。7 7、对数变换、对数变换 即即工商管理学院信息管理教研室 对数变换可将具有指数特征的数据结对数变换可将具有指数特征的数据结构化为线性数
24、据结构。构化为线性数据结构。),2,1;,2,1(0log*njmixxxijijij要求 此外,还有平方根变换,立方根变换等。此外,还有平方根变换,立方根变换等。它们的主要作用是把非线性数据结构变为线它们的主要作用是把非线性数据结构变为线性数据结构,以适应某些统计方法的需要。性数据结构,以适应某些统计方法的需要。第三节第三节 (样品间的样品间的)距离和相似系数的计算距离和相似系数的计算 距离距离是事物是事物(样品样品)之间差异性的测度,之间差异性的测度,而而相似系数相似系数则是其相似性的测度,所以距离则是其相似性的测度,所以距离和相似系数是聚类分析的依据和基础。和相似系数是聚类分析的依据和基
25、础。当聚类要素的数据处理工作完成以后,当聚类要素的数据处理工作完成以后,就要计算分类对象就要计算分类对象(样品样品)之间的距离或相似之间的距离或相似系数,并依据距离或相似系数的矩阵结构进系数,并依据距离或相似系数的矩阵结构进行聚类。行聚类。工商管理学院信息管理教研室一、距离的计算一、距离的计算设观测数据 工商管理学院信息管理教研室),2,1;,2,1(njmixij 列成表列成表31的形式。如果我们把每一个分类的形式。如果我们把每一个分类对象对象(样品,共样品,共m个个)的的n个聚类要素看成个聚类要素看成n维空维空间的间的n个坐标轴,则每一个分类对象的个坐标轴,则每一个分类对象的n个要个要素所
展开阅读全文