商务智能课件:第6章 聚类分析.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《商务智能课件:第6章 聚类分析.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务智能课件:第6章 聚类分析 商务 智能 课件
- 资源描述:
-
1、Principles and Applications of Business IntelligenceChap 6 : 聚类分析 1Introduction to商务智能方法与应用第6章 聚类分析Chapter6: ClusteringPrinciples and Applications of Business IntelligenceChap 6 : 聚类分析 2主要内容 6.1 概述 6.2 相似度衡量方法 6.3 k均值方法 6.4 层次聚类方法 6.5 DBSCAN方法 6.6 聚类效果衡量方法Principles and Applications of Business Inte
2、lligenceChap 6 : 聚类分析 36.1 概述编号账 户余额年龄收入性别子女个数100 很低151967男0200 高258453男1300 中326125女2400 低202167男1500 低552439女4 聚类(clustering):实现将对象自动分组的一种方法 无监督学习 物以类聚Principles and Applications of Business IntelligenceChap 6 : 聚类分析 4应用 CRM中的客户分群: customer segmentation Insurance保险: Identifying groups of motor ins
3、urance policy holders with a high average claim cost 高索赔额的汽车保险的投保人 City-planning: Identifying groups of houses according to their house type, value, and geographical location WWW: 根据 Weblog 数据发现相似的访问模式 生物: 动植物分类(taxonomy)Principles and Applications of Business IntelligenceChap 6 : 聚类分析 5基本概念Principl
4、es and Applications of Business IntelligenceChap 6 : 聚类分析 6基本概念 根据簇之间的关系- 划分型聚类:属于各个簇的对象之间没有交集,即CiCj=- 层次型聚类:簇之间只具有包含关系,如CiCj- 重叠聚类: 簇之间只具有重叠关系,即CiCj 根据数据集D与簇之间的关系- 完全聚类: D= C1C2Ck,所有对象都被分配都簇中- 部分聚类: DC1C2Ck 孤立点(outlier):那些未被分到任一个簇中的对象Principles and Applications of Business IntelligenceChap 6 : 聚类分析
5、 7聚类方法分类 划分法(Partitioning approach):- k均值(k-means)、k中心点(k-medoids)等方法。 层次法(Hierarchical approach):- 凝聚层次聚类(agglomerative hierarchical clustering)和分裂层次聚类(divisive hierarchical clustering)- Diana、 Agnes、BIRCH、 ROCK、CAMELEON等。 基于密度的方法(Density-based approach)- DBSCAN、OPTICS和 DenClue等。 基于模型的方法(Model-base
6、d)- EM、SOM和COBWEB等Principles and Applications of Business IntelligenceChap 6 : 聚类分析 86.2 相似度衡量方法Principles and Applications of Business IntelligenceChap 6 : 聚类分析 96.2 相似度衡量方法 6.2.1 数据类型 6.2.2 基于内容的相似度衡量 6.2.3 基于链接的相似度衡量Principles and Applications of Business IntelligenceChap 6 : 聚类分析 10数据类型 定量属性- 标称
7、(nominal)属性、序数(ordinal)属性、二值属性(binary)- 二值属性:对称属性(symmetric)和非对称属性(asymmeric)性别是对称属性,医学检查结果为非对称属性 定量属性- 区间属性(interval)和比率属性(ratio)区间属性:加和减操作有意义,可以比较取值的差别,乘除运算没有意义,即两个取值之间的比率关系不成立。摄氏温度比率属性既可以加减也可以乘除。绝对温度Principles and Applications of Business IntelligenceChap 6 : 聚类分析 11基于内容的相似度衡量 基于距离的相似度度量 余弦相似度 基于
8、相关性的相似度度量 Jaccard系数 异种属性相似度的综合度量Principles and Applications of Business IntelligenceChap 6 : 聚类分析 12距离度量 明可夫斯基距离Minkowski distance: - i = (xi1, xi2, , xim) 和j = (xj1, xj2, , xjm)- 明可夫斯基距离又称为Lp范式(Lp范式) ,p=1时对应曼哈顿距离,又称L1范式;p=2时对应欧式距离,又称L2范式。p=时称为切比雪夫距离(Chebyshev distance)111( ,)lim(| )max|mppijikjkk m
9、ikjkpkd o oxxxx -Principles and Applications of Business IntelligenceChap 6 : 聚类分析 13距离公式 If q = 1, d is 曼哈顿距离Manhattan distance, L1 If q = 2, d is 欧式距离Euclidean distance: L2- 性质:d(oi,oj) 0d(oi, oi) = 0d(oi,oj) = d(oj,oi)d(oi,oj) doi,ok) + d(ok,oj)|.|(|),(2222211jmximxjxixjxixjoiod-|m|.|),(2211jmxix
10、jxixjxixjoiod-Principles and Applications of Business IntelligenceChap 6 : 聚类分析 14基于距离的相似度( ,)( ,)ijijs o od o o -1( ,)1( ,)ijijs o od o o(,)( ,)ijd o oijs o oe-Principles and Applications of Business IntelligenceChap 6 : 聚类分析 15余弦相似度 假设两个对象oi和oj对应的向量分别为x= (xi1, xi2, xim)和y=(xj1, xj2, xjm),则余弦相似度cos
11、(oi, oj)的计算公式- 相似度忽略了向量的大小,即各个属性取值的绝对大小,这是与距离不同的。- 两个向量中,只要有一个对象在某维度(属性)的取值为0,则该维度相当于被忽略,因为乘积为0。这使得该相似度特别适合于具有大量零值维度的情况12211( ,)| |mikjkkijmmikjkkkxxxycos o oxyxxPrinciples and Applications of Business IntelligenceChap 6 : 聚类分析 16基于相关性的相似度度量 对象oi=(xi1, xi2, xim)和oj=(xj1, xj2, xjm)的皮尔森相关系数corr(oi, oj
12、)的计算公式如下 corr(oi, oj)的取值范围为-1,1。取值为1时说明两个对象正相关,也最相似,取值为-1时说明两个对象负相关,也最不相似122111() ()1( ,)11()()11mikijkjkijmmikijkjkkxxxxmcorr o oxxxxmm-11miikkxxm11mjjkkxxm Principles and Applications of Business IntelligenceChap 6 : 聚类分析 17Jaccard系数 适合于用非对称二值属性描述的对象间的相似度衡量。- 对于非对称二值属性,假设重要的取值用1代表,不重要的用0代表,对象oi=(x
13、i1, xi2, xim)和oj=(xj1, xj2, xjm)的m个二值属性取值中,假设两个对象取值都为1的属性个数为n11,取值都为0的属性个数为n00,取值一个为1另一个为0的属性个数为n10,取值一个为0另一个为1的属性个数为n0111111001( ,)ijns o onnnPrinciples and Applications of Business IntelligenceChap 6 : 聚类分析 18简单匹配系数(simple matching coefficient) 对于用对称二值属性描述的对象间的相似度可以利用简单匹配系数进行衡量。111100100100( ,)ijn
14、ns o onnnnPrinciples and Applications of Business IntelligenceChap 6 : 聚类分析 19二值属性 列联表 Simple matching coefficient (对称属性): Jaccard distance (非对称属性) Jaccard coefficient pdbcasumdcdcbabasum0101cbacb jid),(Object iObject j( , )as i j abc(, )a ds i j a b c d Principles and Applications of Business Intel
15、ligenceChap 6 : 聚类分析 20Jaccard系数2(,)0.6731(,)0.3331(,)0.254sjack m arysjackjimsjim m ary Y , P: 1; N : 0( , )as i j abcPrinciples and Applications of Business IntelligenceChap 6 : 聚类分析 21异种属性相似度的综合度量 标称属性:假设对象oi=(xi1, xi2, xim)和oj=(xj1, xj2, xjm)的第k个属性是标称属性,则基于此属性的两对象相似度,记为sk(oi, oj) 序数属性:假设对象oi=(xi
16、1, xi2, xim)和oj=(xj1, xj2, xjm)的第k个属性是序数属性,有p个不同取值,首先将其取值排序,按照顺序映射为整数0(p-1),并用此序号代替原来的取值,则基于此属性的两对象相似度,sk(oi, oj)1 =( ,)0 ikjkkijxxs o o若否则 |( ,)1p 1ikjkkijxxs o o- -Principles and Applications of Business IntelligenceChap 6 : 聚类分析 22异种属性相似度的综合度量 区间属性或比率属性可以通过取值的差来衡量相异度,假设对象oi=(xi1, xi2, xim)和oj=(xj
17、1, xj2, xjm)的第k个属性是数值属性,则基于此属性的两对象相似度,sk(oi, oj), 对于非对称二值属性,如果采用标称属性的处理方法,则有可能使得不重要的0值左右了相似度,因此,如果两个对象的非对称属性的两个取值均为0,则在衡量相似度时忽略,否则:1( ,) 1 |kijikjks o oxx-1 =( ,)0 ikjkkijxxs o o若否则 oi=(xi1, xi2, xim), oj=(xj1, xj2, xjm)1. k=1,c=0,s(oi, oj)=0;2. 按照第k个属性的类型分别进行如下计算。- 对于非对称二值属性,若xik= xjk=0,转至第3步; 否则,按
18、照标称属性处理;- 若为对称二值属性,按照标称属性处理;- 对于标称属性, 直接计算sk(oi, oj);- 若为序数属性 ,用序号代替原值;- 若为数值属性,计算sk(oi, oj); c=c+1,s(oi, oj)=s(oi, oj)+ sk(oi, oj)3. 若k0时 s(oi, oj)=s(oi, oj)/c;返回s(oi, oj);1 =( ,)0 ikjkkijxxs o o若否则 |( ,)1p 1ikjkkijxxs o o- -1( ,) 1 |kijikjks o oxx-Principles and Applications of Business Intelligen
19、ceChap 6 : 聚类分析 24基于链接的相似度衡量 对于结点viV,从vi指出的边称为出边,指向vi的边为入边。由vi指向的结点称为vi的外邻居(out-neighbor), vi的外邻居的集合由O(vi)代表,其中Oj(vi)表示vi的第j个外邻居。指向vi的结点称为vi的内邻居(in-neighbor), vi的内邻居的集合由I(vi)代表,Ij(vi)表示vi的第j个内邻居。 vi的外邻居的个数称为vi的出度,即出度=|O(vi)|;vi的内邻居的个数称为vi的入度,即入度=|I(vi)|。b e d c aPrinciples and Applications of Busine
20、ss IntelligenceChap 6 : 聚类分析 25基于链接的相似度衡量 simRank- Two objects are similar if they are referenced by similar objects- A object is maximally similar to itself (score=1) 两个结点vi与vj间相似度s(vi, vj)的公式如下| ()| ( )|111 ()( , )( ( ), ( ) ()| ( )| ( )|jiijI vI vijqiljijqlijvvs v vCs I vI vvvI vI v | ()| ()|1j11
21、(,)(),()|() |() |jiI vI vkikqiljqlijCsvvsIvIvI vI v Principles and Applications of Business IntelligenceChap 6 : 聚类分析 26基于链接的相似度衡量 用于二部图- 初始化: s(a,a) = 1, s(a,b)=0 - C: 衰减因子(0,1)(1)(11)(),()()(),(BOjjiAOiBOAOsBOAOCBAs)(1)(12)(),()()(),(dIjjicIidIcIsdIcICdcsPrinciples and Applications of Business Int
展开阅读全文