书签 分享 收藏 举报 版权申诉 / 24
上传文档赚钱

类型关联规则分析及应用课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:4463847
  • 上传时间:2022-12-11
  • 格式:PPT
  • 页数:24
  • 大小:2.15MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《关联规则分析及应用课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    关联 规则 分析 应用 课件
    资源描述:

    1、Data Mining关联规则分析及应用关联规则分析及应用2019-10-121目录目录基本概念基本概念关联规则挖掘过程关联规则挖掘过程分类分类关联规则的价值衡量关联规则的价值衡量4123挖掘算法挖掘算法关联规则的应用关联规则的应用562019-10-122绪论绪论p在购买铁锤的顾客当中,有70的人同时购买了铁钉。p年龄在40 岁以上,工作在A区的投保人当中,有45的人曾经向保险公司索赔过。p在超市购买面包的人有70%会购买牛奶2019-10-123绪论绪论2019-10-124一、基本概念一、基本概念设 I=I1,I2,In 是项的集合。v任务相关数据D:是事务(或元组)的集合。v事务T:是

    2、项的集合,且每个事务具有事务标识符TID。v项集A:是T 的一个子集,加上TID 即事务。v项集(Items):项的集合,包含k个项的项集称为k-项集,如二项集如二项集I1,I2。v支持度计数(Support count):一个项集的出现次数就是整个数据集中包含该项集的事务数。2019-10-125一、基本概念一、基本概念TIDItems001I1、I2、I5002I2、I4003I2、I3004I1、I2、I4005I1、I3006I2、I3007I1、I3008I1、I2、I3、I5009I1、I2、I3DTABI In(n=1,2,)指具体项目,如购物篮分析中:I1=苹果I2=面包I3=

    3、牛奶I4=尿布I5=啤酒Support-count(I1)=62019-10-126一、基本概念一、基本概念v关联规则:形如 A=B 的蕴涵式,其中A I,BI,并且 AB=。v支持度:关联规则在D中的支持度(support)是D中事务同时包含A、B的百分比,即概率。规则代表性、重要性衡量 Support(A B)=P(A B)=support _ count(AB)count(T)v频繁项集:若一个项集的支持度大于等于某个阈值。2019-10-127一、基本概念一、基本概念v置信度置信度c:是包含A的事务中同时又包含B的百分比,即条件概率。规则准确性衡量 confidence(A B)=P(

    4、B|A)v强关联规则:同时满足用户定义的最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则称为强规则。2019-10-128=9support _ count(A U B)support_count(A)二、关联规则挖掘过程二、关联规则挖掘过程两个步骤:找出所有频繁项集。由频繁项集生成满足最小信任度阈值的规则。挖掘模式:2019-10-129min_supmin_conf产生频繁项集生成强关联规则规则评价用户Database二、关联规则挖掘过程二、关联规则挖掘过程关联规则挖掘举例:关联规则挖掘举例:假定数据包含频繁项集M=I1,I2,I5。可以由M 产生哪些关联规则?2

    5、019-10-1210二、关联规则挖掘过程二、关联规则挖掘过程v M 的非空真子集有I1,I2、I1,I5、I2,I5、I1、I2和I5。则结果关联规则如下,每个都列出置信度。2019-10-1211项集项集支持度支持度计数计数67622I1I2I3I4I5项集项集支持度计支持度计数数I1,I24 4I1,I34 4I1,I52 2I2,I34 4I2,I42 2I2,I52 2项集项集支持度支持度计数计数I1,I2,I32I1,I2,I52二、关联规则挖掘过程二、关联规则挖掘过程I1 I2 I5,I1 I5 I2,I2 I5 I1,I1 I2 I5,I2 I1 I5,I5 I1 I2,201

    6、9-10-1212confidence=2/4=50%confidence=2/2=100%confidence=2/2=100%confidence=2/6=33%confidence=2/7=29%confidence=2/2=100%二、关联规则挖掘过程二、关联规则挖掘过程如果最小置信度阈值为70%,那么只有第2、3、6个规则可以作为最终的结果输出,因为只有这些是产生的强关联规则。2019-10-1213I1 I5 I2,I2 I5 I1,I5 I1 I2,confidence=2/2=100%confidence=2/2=100%confidence=2/2=100%二、关联规则挖掘过

    7、程二、关联规则挖掘过程对强关联规则的批评:eg:2019-10-1214项目项目打篮球打篮球不打篮球不打篮球合计合计喝麦片200017503750不喝麦片10002501250合计300020005000 在5000个学生中,3000个打篮球,3750个喝麦片粥,2000个学生既打篮球又喝麦片粥。打篮球=喝麦片粥 40%,66.7%是错误的,因为全部学生中喝麦片粥的比率是75%,比打篮球学生的66.7%要高。打篮球=不喝麦片粥 20%,33.3%这个规则远比上面那个要精确,尽管支持度和置信度都要低的多。二、关联规则挖掘过程二、关联规则挖掘过程兴趣度(作用度):描述了项集A对项集B的影响力的大小

    8、,即A与B的相关程度。P(AB)P(A)P(B)若I(A B)=1,即P(A)P(B)=P(AB),A与B相互独立;若I(A B)1,表示A出现和B出现是正相关的。意味着A的出 现蕴含B的出现。小结:只有兴趣度大于1,该规则才具有实际价值。2019-10-1215I(A B)=三、关联规则的分类三、关联规则的分类p基于规则中处理的变量的类别基于规则中处理的变量的类别v 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;B.数值型:数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。eg:性别=“女”=职业=“秘书”性别=“女”=avg(收入

    9、)=23002019-10-1216三、关联规则的分类三、关联规则的分类p基于规则中处理的变量的类别基于规则中处理的变量的类别v 布尔型:布尔型关联规则处理的值都是离散的、种类化的,它显示了这些变量之间的关系;B.数值型 :数值型关联规则可以和多维关联或多层 关联规则结合起来,对数值型字段进行处理。eg:性别=“女”=职业=“秘书”性别=“女”=avg(收入)=23002019-10-1217三、关联规则的分类三、关联规则的分类p基于规则中数据的抽象层次:基于规则中数据的抽象层次:v 单层关联规则:所有的变量都没有考虑到现实的数据是具有多个不同的层次的;v 多层关联规则:对数据的多层性已经进行

    10、了充分的考虑。层:大类是否细分的问题,如上衣可以细分为 衬衣、夹克、风衣等。eg:IBM台式机=Sony打印机 台式机=Sony打印机2019-10-1218三、关联规则的分类三、关联规则的分类2019-10-1219分层示例:三、关联规则的分类三、关联规则的分类2019-10-1220p基于规则中数据的基于规则中数据的维数维数:v 单维关联规则:只涉及到数据的一个维,如用户购买的物品;v 多维关联规则:要处理的数据将会涉及多个维。eg:啤酒=尿布 性别=“女”=职业=“秘书”TID姓名姓名性别性别职业职业购买物品购买物品月工资月工资001张三女秘书尿布3000002李四男工程师啤酒、尿布50

    11、00四、关联规则的价值衡量四、关联规则的价值衡量对关联规则的评价与价值衡量涉及两个层面:对关联规则的评价与价值衡量涉及两个层面:A.系统客观的层面 使用“支持度和信任度”框架可能会产生一些不正确的规则。B.用户主观的层面只有用户才能决定规则的有效性、可行性。如果把某些约束条件与算法紧密结合,既能提高数据挖掘效率,又能明确数据挖掘的目标。2019-10-1221五、关联规则的挖掘算法五、关联规则的挖掘算法2019-10-1222uApriori算法 挖掘或识别出所有频繁项集是该算法的核心,占整个计算量的大部分。不足:产生大量候选频繁集、多次扫描数据库uFP-Tree算法 优点:不产生候选频繁集、只两次扫描数据库u其他算法六、关联规则的应用六、关联规则的应用气象预气象预测测医疗诊医疗诊断断购物分购物分析析2019-10-1223Thank You!2019-10-1224

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:关联规则分析及应用课件.ppt
    链接地址:https://www.163wenku.com/p-4463847.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库