第5章-关联分析课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第5章-关联分析课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 分析 课件
- 资源描述:
-
1、第第5章章 关联分析关联分析5.1 5.1 关联分析的概念关联分析的概念5.2 5.2 AprioriApriori算法算法5.3 5.3 频繁项集的紧凑表示频繁项集的紧凑表示5.4 FP-growth5.4 FP-growth算法算法5.5 5.5 多层关联规则的挖掘多层关联规则的挖掘5.6 5.6 其他类型的关联规则其他类型的关联规则5.7 5.7 挖掘关联规则的示例挖掘关联规则的示例关联分析是指关联规则挖掘,它是数据挖掘中一个关联分析是指关联规则挖掘,它是数据挖掘中一个重要的、高度活跃的分支。重要的、高度活跃的分支。目标:目标:发现事务数据库中不同项(如顾客购买的商发现事务数据库中不同项
2、(如顾客购买的商品项)之间的联系,这些联系构成的规则可以帮助用户品项)之间的联系,这些联系构成的规则可以帮助用户找出某些行为特征(如顾客购买行为模式),以便进行找出某些行为特征(如顾客购买行为模式),以便进行企业决策,企业决策, 在为某传统蜂蜜品牌做电商分销渠道分析时发现,电商平在为某传统蜂蜜品牌做电商分销渠道分析时发现,电商平台上蜂蜜产品非常多,低端市场难以快速打开局面,高端台上蜂蜜产品非常多,低端市场难以快速打开局面,高端市场又被进口品牌抢占,可以说电商蜂蜜市场竞争十分激市场又被进口品牌抢占,可以说电商蜂蜜市场竞争十分激烈。如果以直接销售的形式进入市场难以达到理想目标。烈。如果以直接销售的
3、形式进入市场难以达到理想目标。 如何解决这个问题呢?如何解决这个问题呢? 转变思路,去做相关行业的分析挖掘。转变思路,去做相关行业的分析挖掘。 啤酒尿布案例。啤酒尿布案例。 获取淘宝全网数据,找出客户同时购买蜂蜜和其他产品的获取淘宝全网数据,找出客户同时购买蜂蜜和其他产品的交易数据,并依此建立事务数据库。依据设定的最小支持交易数据,并依此建立事务数据库。依据设定的最小支持度阈值,根据以下思路进行分析。度阈值,根据以下思路进行分析。 使用了使用了FP-growthFP-growth算法来进行关联分析。算法来进行关联分析。 1.1.频繁项集产生:其目标是发现满足最小支持度阈值的所频繁项集产生:其目
4、标是发现满足最小支持度阈值的所有项集,这些项集称作频繁项集。有项集,这些项集称作频繁项集。 2.2.规则的产生:其目标是从上一步发现的频繁项集中提取规则的产生:其目标是从上一步发现的频繁项集中提取所有高置信度的规则,这些规则称作强规则。所有高置信度的规则,这些规则称作强规则。 具体步骤为可分为:具体步骤为可分为: a.a.扫描一遍数据库,获取所有频繁项,删除频率小于最小扫描一遍数据库,获取所有频繁项,删除频率小于最小支持度的项。在此操作的过程中,还可以得到每个项的出支持度的项。在此操作的过程中,还可以得到每个项的出现频率,供后续步骤使用。现频率,供后续步骤使用。 b.b.第二次扫描数据库,在第
5、一次处理完成的结果基础上,第二次扫描数据库,在第一次处理完成的结果基础上,构建构建 FP-Tree FP-Tree。 c.c.得到了得到了 FP-Tree FP-Tree 树之后,再遍历整棵树获取满足一定树之后,再遍历整棵树获取满足一定置信度的关联规则。置信度的关联规则。 经过分析发现经过分析发现购买蜂蜜购买蜂蜜的客户的客户同时购买同时购买滋补营养品、美容滋补营养品、美容护肤、零食、保健品、个人护理等高达护肤、零食、保健品、个人护理等高达 70 70 多个类目多个类目的产的产品。也就是说,品。也就是说, 这这 70 70 多个类目的客户都是蜂蜜产品的多个类目的客户都是蜂蜜产品的潜在消费者。潜在
6、消费者。 其中其中茶饮类目关联最强茶饮类目关联最强,而在茶饮类目中,花茶在功效上,而在茶饮类目中,花茶在功效上与蜂蜜最搭。找到花茶类目之后,我们再分析了一下客群与蜂蜜最搭。找到花茶类目之后,我们再分析了一下客群的消费习惯,大概都是消费能力和消费观念都很前的年轻的消费习惯,大概都是消费能力和消费观念都很前的年轻人。有了这些数据支撑,我们再对产品进行价格和包装定人。有了这些数据支撑,我们再对产品进行价格和包装定位,卖花草茶的分销商在一个月销量就排在蜂蜜销售页面位,卖花草茶的分销商在一个月销量就排在蜂蜜销售页面前列了,这也大大带动了旗舰店的流量提升。前列了,这也大大带动了旗舰店的流量提升。5.1.1
7、 5.1.1 事务数据库事务数据库定义定义5.15.1 设设I=i1,i2,im是一个全局项的集合,其是一个全局项的集合,其中中ij(1jm)是项()是项(item)的唯一标识,)的唯一标识,j表示项的序号。表示项的序号。事务数据库事务数据库(transactional databases)D=t1,t2,tn是一个事务(是一个事务(transaction)的集合,每个事务)的集合,每个事务ti(1in)都)都对应对应I上的一个子集,其中上的一个子集,其中ti是事务的唯一标识,是事务的唯一标识,i表示事务的表示事务的序号。序号。定义定义5.25.2 由由I I中部分或全部项构成的一个集合称为中
8、部分或全部项构成的一个集合称为项集项集(itemsetitemset),任何非空项集中均不含有重复项。),任何非空项集中均不含有重复项。如如I1=i1,i3,i4就是一个项集。就是一个项集。为了算法设计简单,本为了算法设计简单,本章中除特别声明外,假设所有项集中列出的各个项均按项序章中除特别声明外,假设所有项集中列出的各个项均按项序号或字典顺序有序排列。号或字典顺序有序排列。购物篮问题:购物篮问题:设设I是全部商品集合,是全部商品集合,D是所有顾客的购物是所有顾客的购物清单,每个元组即事务是一次购买商品的集合。清单,每个元组即事务是一次购买商品的集合。如表如表5.1所示是一个购物事务数据库的示
9、例,其中,所示是一个购物事务数据库的示例,其中,I=i1,i2,i3,i4,i5,D=t1,t2,t3,t4,t5,t6,t7,t8,t9,t1=i1,i2,i5,t9=i1,i2,i3。TIDTID购买商品的列表购买商品的列表t1i1,i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i3,i5t9i1,i2,i3购物篮问题购物篮问题是关联分析的一个典型例子,每种商品有一是关联分析的一个典型例子,每种商品有一个布尔变量,顾客购买某商品,对应的布尔变量为个布尔变量,顾客购买某商品,对应的布尔变量为true,否,否则为则为fals
10、e,可以将一个事务看成是一个购物篮,购物篮可用,可以将一个事务看成是一个购物篮,购物篮可用一个为这些变量指定值的布尔向量表示。一个为这些变量指定值的布尔向量表示。例如,例如,t1=i1,i2,i5,表示对应,表示对应i1、i2、i5的变量取值为的变量取值为true,其余为,其余为false。可以分析这些布尔向量,得出反映商品。可以分析这些布尔向量,得出反映商品频频繁关联或同时购买繁关联或同时购买的购买模式。这些模式可以用关联规则的购买模式。这些模式可以用关联规则的形式表示。的形式表示。 但是我们如何定义这些关系呢?当寻找但是我们如何定义这些关系呢?当寻找频繁关联或同时购买模式时,频繁(时,频繁
11、(frequent)的定义是什么?)的定义是什么? 支持度(支持度(support):):该数据集中包含该项集的记录所占该数据集中包含该项集的记录所占的比例的比例。从上面例子中可以得到:。从上面例子中可以得到:豆奶豆奶的支持度是的支持度是4/5,豆奶,尿布豆奶,尿布的支持度是的支持度是3/5。支持度是针对项集来说的,。支持度是针对项集来说的,只保留满足最小支持度的项集。只保留满足最小支持度的项集。 可信度(可信度(confidence):是针对一条诸如):是针对一条诸如尿布尿布-葡萄酒葡萄酒的关联规则来定义的。这条规则的可信度被定义为的关联规则来定义的。这条规则的可信度被定义为: “支持度支持
12、度(尿布,葡萄酒尿布,葡萄酒)/支持度支持度(尿布尿布)”5.1.2 5.1.2 关联规则及其度量关联规则及其度量1. 1. 关联规则关联规则关联规则表示项之间的关系,它是形如关联规则表示项之间的关系,它是形如XY的蕴涵表的蕴涵表达式,其中达式,其中X和和Y是不相交的项集,即是不相交的项集,即XY=,X称为规则称为规则的前件,的前件,Y称为规则的后件。称为规则的后件。例如,例如,cereal,milkfruit关联规则表示的含义是购关联规则表示的含义是购买谷类食品和牛奶的人也会购买水果,它的前件为买谷类食品和牛奶的人也会购买水果,它的前件为cereal,milk,后件为,后件为fruit,有时
13、也表示为,有时也表示为cereal,milkfruit或或cereal and milkfruit等形式。等形式。2. 2. 支持度支持度定义定义5.35.3 给定一个全局项集给定一个全局项集I和事务数据库和事务数据库D,一个项集,一个项集I1 I在在D上的支持度是包含上的支持度是包含I1的事务在的事务在D中所占的百分比,即中所占的百分比,即其中,其中,|表示表示集合的计数,即其中元素个数。对于形集合的计数,即其中元素个数。对于形如如XY的关联规则,其支持度定义为:的关联规则,其支持度定义为:采用概率的形式等价地表示为:采用概率的形式等价地表示为:support(XY)=P(XY)显然,显然,
14、support(XY)与与support(YX)是相等的。例如,是相等的。例如,在表在表5.1的事务数据库的事务数据库D中,总的元组数为中,总的元组数为9,同时包含,同时包含i1和和i2的的元组数为元组数为4,则,则support(i1i2)=support(i2i1)=4/9=0.44,这里,这里相当于相当于X=i1,Y=i2。TIDTID购买商品的列表购买商品的列表t1i1,i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i3,i5t9i1,i2,i3支持度是一种重要性度量支持度是一种重要性度量,因为低支持度的规则可能,因
15、为低支持度的规则可能只是偶然出现。只是偶然出现。从实际情况看,低支持度的规则多半是没有意义的。从实际情况看,低支持度的规则多半是没有意义的。例如,顾客很少同时购买例如,顾客很少同时购买a、b商品,想通过对商品,想通过对a或或b商商品促销(降价)来提高另一种商品的销售量是不可能的。品促销(降价)来提高另一种商品的销售量是不可能的。3. 3. 置信度置信度定义定义5.45.4 给定一个全局项集给定一个全局项集I和事务数据库和事务数据库D,一个定,一个定义在义在I和和D上的关联规则形如上的关联规则形如XY,其中,其中X、YI,且,且XY=,它的置信度(或可信度、信任度)是指包含它的置信度(或可信度、
16、信任度)是指包含X和和Y的事务数与的事务数与包含包含X的事务数之比,即:的事务数之比,即:采用概率的形式等价地表示为:采用概率的形式等价地表示为:confidence(XY)=P(Y|X)其中其中P(Y|X)表示表示Y在给定在给定X下的条件概率。下的条件概率。置信度确定通过规则进行推理具有的可靠性置信度确定通过规则进行推理具有的可靠性。对于规则。对于规则XY,置信度越高,置信度越高,Y在包含在包含X的事务中出现的可能性越大。的事务中出现的可能性越大。显然显然confidence(XY)与与confidence(YX)不一定相等。不一定相等。例如例如,confidence(i2i1)=4/6=0
17、.67,support(i1i2)=4/7=0.57。TIDTID购买商品的列表购买商品的列表t1i1,i2,i5t2i2,i4t3i2,i3t4i1,i2,i4t5i1,i3t6i2,i3t7i1,i3t8i1,i2,i3,i5t9i1,i2,i3对于形如对于形如XY关联规则,关联规则,support(XY)confidence(XY)总是成立的。总是成立的。一个规则的支持度总是不大于其置信度。一个规则的支持度总是不大于其置信度。定义定义5.55.5 给定给定D上的最小支持度(记为上的最小支持度(记为min_sup)和最小)和最小置信度(记为置信度(记为min_conf),分别称为最小支持度
18、阈值和最小置),分别称为最小支持度阈值和最小置信度阈值,同时满足最小支持度阈值和最小置信度阈值的关联信度阈值,同时满足最小支持度阈值和最小置信度阈值的关联规则称为规则称为强关联规则强关联规则。也就是说,某关联规则的最小支持度也就是说,某关联规则的最小支持度min_sup、最小置、最小置信度信度min_conf,则它为,则它为强关联规则强关联规则。说明:说明:由关联规则作出的推论并不必然蕴涵因果关系,由关联规则作出的推论并不必然蕴涵因果关系,它只表示规则前件和后件中的项明显地同时出现。它只表示规则前件和后件中的项明显地同时出现。5.1.3 5.1.3 频繁项集频繁项集定义定义5.65.6 给定全
19、局项集给定全局项集I和事务数据库和事务数据库D,对于,对于I的非空的非空子集子集I1,若其支持度大于或等于若其支持度大于或等于min_sup,则称,则称I1为频繁项为频繁项集(集(Frequent Itemsets)。)。若若I包含包含m个项,那么可以产生个项,那么可以产生2m个非空项集。个非空项集。例如,例如,I=i1,i2,i3,可以产生的非空项集为,可以产生的非空项集为i1,i2,i3,i1,i2,i1,i3,i2,i3,i1,i3,i1,i2,i3,共,共8个。个。 定义定义5.7 5.7 对于对于I的非空子集的非空子集I1,若某项集,若某项集I1中包含有中包含有I中中的的k个项,称个
20、项,称I1为为k-项集项集。若若k-项集项集I1是频繁项集,称为是频繁项集,称为频繁频繁k-项集项集。显然,一个。显然,一个项集是否频繁,需要通过事务数据库项集是否频繁,需要通过事务数据库D来判断。来判断。5.1.4 5.1.4 挖掘关联规则的基本过程挖掘关联规则的基本过程挖掘关联规则就是找出事务数据库挖掘关联规则就是找出事务数据库D D中的强关联规则,中的强关联规则,通常采用以下两个判断标准:通常采用以下两个判断标准:最小支持度(包含)最小支持度(包含):表示规则中的所有项在事务数据:表示规则中的所有项在事务数据库库D D中同时出现的频度应满足的最小频度。中同时出现的频度应满足的最小频度。最
21、小置信度(排除)最小置信度(排除):表示规则中前件项的出现暗示后:表示规则中前件项的出现暗示后件项出现的概率应满足的最小概率。件项出现的概率应满足的最小概率。挖掘强关联规则两个基本步骤如下:挖掘强关联规则两个基本步骤如下:找频繁项集:找频繁项集:通过用户给定最小支持度阈值通过用户给定最小支持度阈值min_supmin_sup,寻找,寻找所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。所有频繁项集,即仅保留大于或等于最小支持度阈值的项集。生成强关联规则:生成强关联规则:通过用户给定最小置信度阈值通过用户给定最小置信度阈值min_confmin_conf,在频繁项集中寻找关联规则,即删除不满
22、足最小置信度阈值在频繁项集中寻找关联规则,即删除不满足最小置信度阈值的规则。的规则。其中是目前研究的重点。其中是目前研究的重点。支持度和可信度是用来量化关联分析是否成功的方法。假设支持度和可信度是用来量化关联分析是否成功的方法。假设想找到支持度大于想找到支持度大于0.8的所有项集,应该如何去做?一个办法的所有项集,应该如何去做?一个办法就是生产一个物品所有可能组合的清单,然后对每一种组合就是生产一个物品所有可能组合的清单,然后对每一种组合统计它出现的频繁程度。统计它出现的频繁程度。找频繁项集最简单的算法如下:找频繁项集最简单的算法如下:输入:输入:全局项集全局项集I和事务数据库和事务数据库D,
23、最小支持度阈值,最小支持度阈值min_sup。输出:输出:所有的频繁项集集合所有的频繁项集集合L。方法:方法:其过程描述如下:其过程描述如下:n=|D|;for (I的每个子集的每个子集c) i=0; for (对于对于D中的每个事务中的每个事务t) if (c是是t的子集的子集) i+; if (i/nmin_sup) L=Lc;/将将c添加到频繁项集集合添加到频繁项集集合L中中;若若I的项数为的项数为m,则子项集数为,则子项集数为2m,为每一个子集扫描,为每一个子集扫描D中中n个事务,所以算法的时间复杂度为个事务,所以算法的时间复杂度为O(2mn),它随着项的,它随着项的个数呈指数级的增长
24、。个数呈指数级的增长。 但是当物品成千上万时,上述做法非常非但是当物品成千上万时,上述做法非常非常慢。真对这个问题,我们引进常慢。真对这个问题,我们引进Apriori原原理。理。AprioriApriori算法是由算法是由AgrawalAgrawal等人于等人于19931993提出的,它采用逐提出的,它采用逐层搜索策略(层次搜索策略)产生所有的频繁项集。层搜索策略(层次搜索策略)产生所有的频繁项集。 原理内容:原理内容:AprioriApriori原理是说如果某个项集是频繁的,那原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。么它的所有子集也是频繁的。 也就是说:如果也就是说:如果0
25、,10,1是频繁的,那么是频繁的,那么00,11也一定是也一定是频繁的,反过来也就是说:频繁的,反过来也就是说:如果一个项集是非频繁集,那如果一个项集是非频繁集,那么它的所有超集也是非频繁的。么它的所有超集也是非频繁的。(这个很有用)(这个很有用) 例如:我么如果知道例如:我么如果知道2,32,3是非频繁的,那么是非频繁的,那么0,1,2,31,2,30,2,30,1,2,31,2,30,2,3也是非频繁的。也就是说一旦也是非频繁的。也就是说一旦计算出计算出2,32,3的支持度,知道他是非频繁的之后,就不需的支持度,知道他是非频繁的之后,就不需要在计算要在计算0,1,2,31,2,30,2,3
展开阅读全文