关联规则挖掘理论.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《关联规则挖掘理论.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 关联 规则 挖掘 理论 课件
- 资源描述:
-
1、1三三 关联规则挖掘理论关联规则挖掘理论n基本概念与解决方法 n经典的频繁项目集生成算法分析及其改进算法n对项目集格空间理论的发展n关联规则挖掘中的一些更深入的问题n数量关联规则挖掘方法2关联规则挖掘是数据挖掘研究的基础n关联规则挖掘(Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。n最早是由Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析(Basket Analysis)问题提出的,其目的是为了发现交易数据库(Transaction Database)中不同商品之间的联系规则。n关联规则的挖掘工作成果颇丰。例如,关联规则的
2、挖掘理论、算法设计、算法的性能以及应用推广、并行关联规则挖掘(Parallel Association Rule Mining)以及数量关联规则挖掘(Quantitive Association Rule Mining)等。n关联规则挖掘是数据挖掘的其他研究分支的基础。 3事务数据库 n设I= i1,i2,im 是一个项目集合,事务数据库D= t1,t2,tn 是由一系列具有唯一标识TID的事务组成,每个事务ti(i=1,2,n)都对应I上的一个子集。n一个事务数据库可以用来刻画:n购物记录: I是全部物品集合, D是购物清单,每个元组ti是一次购买物品的集合(它当然是I的一个子集)。n其它应
3、用问题4支持度与频繁项目集 n定义(项目集的支持度)定义(项目集的支持度). 给定一个全局项目集I和数据库D,一个项目集I1I在D上的支持度(Support)是包含I1的事务在D中所占的百分比:support( I1 )=| t D | I1 t| / | D|。n定义(定义(频繁项目集).给定全局项目集I和数据库D ,D中所有满足用户指定的最小支持度(Minsupport)的项目集,即大于或等于minsupport的I的非空子集,称为频繁项目集(频集:Frequent Itemsets)或者大项目集(Large Iitemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最
4、大频繁项目集(最大频集: Maximum Frequent Itemsets)或最大大项目集(Maximum Large Iitemsets)。5可信度与关联规则n定义(关联规则与可信度)定义(关联规则与可信度).给定一个全局项目集I和数据库D,一个定义在I和D上的关联规则形如I1I2,并且它的可信度或信任度或置信度(Confidence)是指包含I1和I2的事务数与包含I1的事务数之比,即Confidence(I1I2)= support(I1I2)/ support(I1),其中I1,I2I,I1I2=。n定义(强关联规则)定义(强关联规则). D在I上满足最小支持度和最小信任度(Minc
5、onfidence)的关联规则称为强关联规则(Strong Association Rule)。6关联规则挖掘基本过程n关联规则挖掘问题可以划分成两个子问题:n1. 1. 发现频繁项目集发现频繁项目集: :通过用户给定Minsupport ,寻找所有频繁项目集或者最大频繁项目集。n2 2生成关联规则生成关联规则: :通过用户给定Minconfidence ,在频繁项目集中,寻找关联规则。n第1个子问题是近年来关联规则挖掘算法研究的重点。7第三章第三章 关联规则挖掘理论和算法关联规则挖掘理论和算法n基本概念与解决方法 n经典的频繁项目集生成算法分析及其改进算法n对项目集格空间理论的发展n关联规则
6、挖掘中的一些更深入的问题n数量关联规则挖掘方法8频繁项目集生成算法分析nAgrawal等人建立了用于事务数据库挖掘的项目集格空间理论(1993, Appriori 属性)。n1994年,Agrawal 等人提出了著名的Apriori 算法。(发现频繁项目集)nApriori作为经典的频繁项目集生成算法,在数据挖掘中具有里程碑的作用。nApriori算法有两个致命的性能瓶颈:n1 1多次扫描事务数据库,需要很大的多次扫描事务数据库,需要很大的I/OI/O负载负载n2 2可能产生庞大的侯选集可能产生庞大的侯选集9频繁项目集生成算法分析n一些算法虽然仍然遵循Apriori 属性,但是由于引入了相关技
展开阅读全文