《数据挖掘基础:关联规则》课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《数据挖掘基础:关联规则》课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据挖掘基础:关联规则 数据 挖掘 基础 关联 规则 课件
- 资源描述:
-
1、第四章关联规则4.1关联规则的基本概念4.2关联规则的挖掘过程4.3关联规则的Apriori算法4.4关联规则的FP-Growth算法习题4.1 关联规则的基本概念第四章 关联规则关联规则概念最早是由Agrawal等人在1993年首先提出的,最初的动机是针对购物篮分析问题提出的,其目的是为了发现交易数据库中不同商品之间的联系规则。Agrawal等人于1993年提出了关联规则挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并提出了著名的Apriori算法,至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。4.
2、1 关联规则的基本概念第四章 关联规则More应用市场:市场货篮分析、交叉销售(Crossing Sale)、部分分类(Partial Classification)、金融服务(Financial Service),以及通信、互联网、电子商务 4.1 关联规则的基本概念第四章 关联规则4.1.1 基本概念1)项(Item)、项集(Itemset)、k-项集与事务 项:是指数据库中不可分割的最小单位。项集:是指多个项的集合,其中,空集是指不包含任何项的项集。k-项集:是指由k个项构成的项集组合。事务:是指用户定义的一个数据库操作序列,这些操作序列是一个不可分割的工作单位。2)频繁项集(Frequ
3、ent Itemset)频繁项集:是指在所有训练元组中同时出现的次数,超过人工定义的阈值的项集。在关联规则的挖掘过程中,一般只保留候选项集中满足支持度条件的项集,不满足条件的舍弃。4.1 关联规则的基本概念第四章 关联规则4.1.1 基本概念3)极大频繁项集(Frequent Large Itemset)极大频繁项集:不存在包含当前频繁项集的频繁超集,则当前频繁项集就是极大频繁项集。4)支持度(Support)支持度:是指项集在所有训练元组中同时出现的次数,因此,支持度可以表述为Support(X-Y)=|X U Y|/|N|。其中,X,YN,XY=,|X U Y|表示集合X与Y在一个事务中同
4、时出现的次数,|N|表示数据记录的总个数。5)置信度(Confidence)置信度可以表述为:Confidence(X-Y)=|X U Y|/|X|=Support(X-Y)/Support(X),其中,X,YN,XY=,|X U Y|表示集合X与Y在一个事务中同时出现的次数,|X|表示X出现的总次数。4.1 关联规则的基本概念第四章 关联规则4.1.2 关联规则定义关联规则(Association rule):指从事务数据库、关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。关联分析(Association analysis):用于发现隐藏在大型数据集中
5、的令人感兴趣的联系。所发现的联系可以用关联规则或者频繁项集的形式表示。关联规则挖掘就是从大量的数据中挖掘出描述数据项之间相互联系的有价值的有关知识。4.1 关联规则的基本概念第四章 关联规则4.1.2 关联规则定义一般地,关联规则挖掘问题可以划分成两个子问题:1)发现频繁项目集通过用户给定的Minsupport,寻找所有频繁项目集,即满足Support不小于Minsupport的项目集。事实上,这些频繁项目集可能具有包含关系。一般地,我们只关心那些不被其它频繁项目集所包含的所谓频繁大项集的集合。这些频繁大项集是形成关联规则基础。2)生成关联规则通过用户给定的Minconfidence,在每个最
6、大频繁项目项目集中,寻找Confidence不小于Minconfidence的关联规则。这两个子问题主要在4.3节中进行介绍。4.1 关联规则的基本概念第四章 关联规则4.1.3 关联规则分类1)基于规则中处理的变量的类别,关联规则可以分为布尔型和数值型。2)基于规则中数据的抽象层次,可以分为单层关联规则和多层关联规则。3)基于规则中涉及到的数据的维数,关联规则可以分为单维的和多维的。第四章关联规则4.2关联规则的挖掘过程4.1关联规则的基本概念4.3关联规则的Apriori算法4.4关联规则的FP-Growth算法习题大数据应用人才培养系列教材4.2关联规则的挖掘过程第四章 关联规则4.2.
7、1 频繁项集产生格结构(Lattice Structure)常常被用来枚举所有可能的项集。图1 项集的格4.2关联规则的挖掘过程第四章 关联规则4.2.2 频繁项集的产生及其经典算法查找频繁项目集经典的查找策略基于精简集的查找策略基于最大频繁项集的查找策略按照挖掘的策略不同经典的挖掘完全频繁项集方法基于广度优先搜索策略的关联规则算法基于深度优先搜索策略的算法Apriori算法、DHP算法FP-Growth算法、ECLAT算法COFI算法与经典查找不同方法基于精简集的方法基于最大频繁项目集的方法A-close算法MAFIA算法、GenMax算法DepthProject算法格结构(Lattice
8、Structure)常常被用来枚举所有可能的项集。4.2关联规则的挖掘过程第四章 关联规则4.2.3 强关联规则生成关联规则是指通过用户给定的最小可信度,在每个最大频繁项集中,寻找可信度不小于Minconfidence的关联规则。得到频繁项目集之后,则需要从频繁项目集中找出符合条件的关联规则。最简单的办法是:遍历所有的频繁项目集,然后从每个项目集中依次取1、2、.k个元素作为后件,该项目集中的其他元素作为前件,计算该规则的置信度进行筛选即可。这样的穷举效率显然很低。假如对于一个频繁项目集f,可以生成下面这样的关联规则:(f-)-4.2关联规则的挖掘过程第四章 关联规则4.2.4 关联规则评价标
9、准在某些特定情况下,仅凭支持度和置信度来衡量一条规则,是完全不够的,对于数据的筛选力度也不足。因此,需要介绍更多的判断强关联规则的评价标准,来满足实际需求。支持度和置信度并不能过成功滤掉那些我们不感兴趣的规则,因此我们需要一些新的评价标准,下面介绍六中评价标准:相关性系数,卡方指数,全置信度、最大置信度、Kulc、cosine距离。4.2关联规则的挖掘过程第四章 关联规则4.2.4 关联规则评价标准1)相关性系数lift引入正相关和负相关的机制,对于不是正相关的商品规则,可以用相关性系数lift过滤掉。对于规则A-B或者B-A,lift(A,B)=P(AB)/(P(A)*P(B),如果lift
10、(A,B)1表示A、B呈正相关,lift(A,B)B),confidence(B-A)4)最大置信度max_confidence最大置信度则与全置信度相反,求的不是最小的支持度而是最大的支持度,max_confidence(A,B)=maxconfidence(A-B),confidence(B-A),不过感觉最大置信度不太实用。4.2关联规则的挖掘过程第四章 关联规则4.2.4 关联规则评价标准5)KulcKulc系数本质上是对两个置信度做一个平均处理,公式为:kulc(A,B)=(confidence(A-B)+confidence(B-A)/2。6)cosine距离cosine(A,B)
11、=P(AB)/sqrt(P(A)*P(B)=sqrt(P(A|B)*P(B|A)=sqrt(confidence(A-B)*confidence(B-A)第四章关联规则4.3关联规则的Apriori算法4.1关联规则的基本概念4.2关联规则的挖掘过程4.4关联规则的FP-Growth算法习题大数据应用人才培养系列教材4.3关联规则的Apriori算法第四章 关联规则频繁项集的产生及其经典算法之一Apriori算法 Apriori算法1概念Apriori算法基于频繁项集性质的先验知识,使用由下至上逐层搜索的迭代方法,即从频繁1项集开始,采用频繁k项集搜索频繁k+1项集,直到不能找到包含更多项的频
展开阅读全文