数据挖掘概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘概述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概述 课件
- 资源描述:
-
1、 一数据挖掘概念一数据挖掘概念l 背景l 概念l 典型数据挖掘系统结构l数据挖掘的对象二数据仓库和数据挖二数据仓库和数据挖掘的掘的OLAP技术技术l 关系数据l 数据仓库l 事务数据库l 高级数据库系统和高 级 数据库应用 三数据挖掘技术三数据挖掘技术l 概念描述l 关联分析l 分类和预测l聚类分析l 孤立点分析四数据挖掘在零售业中的应用四数据挖掘在零售业中的应用五数据挖掘的发展趋势五数据挖掘的发展趋势六数据挖掘软件的发展六数据挖掘软件的发展数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据数据爆炸,知识贫乏数据爆炸,知识贫乏 苦恼:淹没在数据中;不能制定
2、合适的决策!数据数据n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期l 1995年,在加拿大蒙特利尔召开了第一届知识发现和数据挖掘国际学术会议,数据挖掘一词被很快流传开来。l数据挖掘(DM:Dat Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。图形用户界面图形用户界面模式评估模式评估数据挖
3、掘引擎数据挖掘引擎数据库或数据数据库或数据仓库服务器仓库服务器数据库数据库数据仓库数据仓库数据清理数据集成过滤知识库知识库l关系数据库l数据仓库l事务数据库l高级数据库系统和高级数据库应用l数据仓库的概念l多维数据模型l多维数据模型上的OLAP操作lW.H.Inman:数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程。l面向主题的:数据仓库围绕一些主题,如顾客、供应商、产品和销售组织。l集成的:数据仓库将多个异种数据源,如关系数据库、一般文件和联机事务处理记录集成在一起。l时变的:数据存储从历史的角度提供信息。l非易失的:数据仓库总是物理地分离存放数据;l最流
4、行的数据仓库数据模型是多维数据模型。这种模型可以以星型模式、雪花模式、或事实星座模式形式存在。l星型模式:数据仓库包括一个事实表,一组维表。事实表包含大批数据且不含冗余。l雪花模式:雪花模式是星型模式的变种。雪花模式的维表可能是规范化形式,以便减少冗余。但是执行查询时需要更多连接操作,可能会降低浏览的性能。l事实星座模式:对于需要多个事实表共享维表的复杂应用采用事实星座模式。Time_keyItem_keyBranch_keyLocation_keyDollars_soldUnits_soldTime_keyDayDay_of_the_weekMonthQuarterYearItem_keyI
5、tem_namebrandtypeSupplier_typeBranch_keyBranch_nameBranch_typeLocation_keyStreetCityProvince_or_statecountrySales数据仓库的星型模式数据仓库的星型模式Time维表维表item维表维表branch维表维表location维表维表Sale事实表事实表l概念分层:概念分层:概念分层定义一个映射序列,将低层概念映射到更一般的高层概念。v模式分层:是数据库模式属性间的全序或偏序。可以形式地表示属性间的语义联系。如关系模式address,包含属性street,city,province-or-s
6、tate和country,可用如下全序定义location模式分层结构:streetcityprovince_or_statecountry allcanadausaBritish columbiaontariovancouvervictoriatorontoottawaNew yorkbuffaloNew yorkIIIinoischicagolocationallcountryProvince_or_statecityv集合分组分层:将给定属性或维的值组织成常量组或区间组,定义全序或偏序。young,middle_aged,seniorall(age)2039 young 4059 mid
7、dle_aged 6089 seniorv操作导出的分层:根据用户、专家或数据挖掘系统说明的操作分层。操作可能包括信息编码串的解码,由复杂数据对象提取信息和数据聚类。例:一个e-mail地址www的URL可能包含涉及部门、学校(或公司)和国家的层次信息。可以使用解码操作来提取信息,形成概念分层。dmbookcs.sfu.ca给出偏序 login-namedepartmentuniversitycountry,形成了e-mail地址的一个概念分层。v基于规则的分层:由一组规则定义一个概念分层。如下面的规则可将商品分类为low_profit_margin,medium_profit_margin和
8、high_profit_margin。其中,商品x的价格差定义为x的销售价格和实际价格的差。low_profit_margin(x)price(x,p1)cost(x,p2)(p1p2)250)l上卷上卷(roll-up):通过一个维的概念分层向上攀升或者通过维归约,在数据立方体上进行聚集。l下钻下钻(drill-down):通过沿维的概念分层向下或引入新的未来实现。l切片或切块:切片或切块:切片(slice)操作在给定的数据立方体的一个维上进行选择,导致一个子方。切块(dice)操作通过对两个或多个维执行选择,定义子方。l转轴转轴(pivot):转动数据的视角,提供数据的替代表示。l概念描述
9、:特征化和区分l关联分析l分类和预测l聚类分析l孤立点分析l演变分析l概念描述是指用汇总的、简洁的、精确的方式描述每个类或概念。数据特征化是目标类数据的一般特征或特征的汇总数据区分是将目标类对象的一般特征与一个或多个对比类对象的一般特征比较l数据立方体数据立方体(或或OLAP)方法方法:(面向数据仓库)l面向属性的归纳方法(AOI):面向关系数据库查询的、基于概化的、联机的数据分析处理技术。AOI基本思想:首先使用关系数据库查询收集任务相关的数据:然后考察任务相关数据中的每个属性的不同值的个数,进行概化。概化通过属性删除或属性概化进行。属性删除:如果初始工作关系的某个属性有大量不同的值,但(1
10、)在此属性上没有概化操作符:在该属性没有定义概念分层),(2)它的高层概念用其他属性表示,则该属性应该从工作关系中删除。属性概化:如果初始工作关系的某个属性有大量不同的值,并且该属性上存在概化操作符,则应该选择该概化操作符,并将它用于该属性。属性概化阈值控制:一般情况下,数据挖掘系统有一个缺省的属性阈值,取值范围为2到8。概化关系阈值控制:这样的阈值也可以在数据挖掘系统中预先设定,一般取值为1030。例3-1:假定用户想描述big_university数据库中研究生的一般特征。给定属性:name,gender,major,birth_place,birth_date,residence,pho
11、ne#(电话号码)和gpa(平均等级分)。该特征的数据挖掘查询可以用数据挖掘查询语言DMQL表示如下:use big_university_db mine characteristics as“science_students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpa from student where status in“graduate”转化数据挖掘查询为关系查询。use big_university_db select name,gender,major,birth_dat
12、e,residence,phone#,gpa from student where status in“M.SC.”,”M.A.”,”M.B.A”,”Ph.D”初始工作关系:任务相关数据的集合namegendermajorBirth_placeBirth_dateresidencePhone#gpajimMCSVancouver,BC,Canda8-12-763511 Main St.,Richmond687-45983.67scottMCSMontreal,Que,Canada28-7-75345 lst Ave.,Richmond253-91063.70leeFphysics Seattl
13、e,WA,USA25-8-70125 Austin Ave.,Burnaby420-52323.83 l面向属性的归纳过程如下:1)name:该属性存在大量不同值,并且该属性没有概化操作符,该属性被删除。2)gender:由于gender只有两个不同值,该属性保留,并且不对其进行概化。3)major:假定已定义了一个概念分层,允许将属性major概化到值arts&science,engineering,business还假定该属性的概化阈值设置为5,且初始关系中major有20不同值。根据属性概化控制,major沿概念分层向上攀升被概化。4)birth_place:该属性有大量不同值,因此应当
14、概化它。假定存在birth_place的概念分层,定义为cityprovince_or_statecountry。如果初始工作关系中country的不同值个数大于属性概化阈值,则birth_place应当删除,因为尽管存在概化操作符,概化阈值也不会满足。如果假定 country的不同值个数小于概化阈值,则birth_place应概化到birth_country.5)birth_date:假定存在概念分层,可以将birth_date概化到age_range,并age_range的不同值数小于对应的属性概化阈值,则应当对birth_date进行概化6)residence:假定residence被属
15、性number,street,residence_city,residence_province_or_state和residence_country定义number和street的不同值多半很多,因为这些概念的层次相当低因此,number和street应当删除,将residence概化到residence_city.7)phone#:与上面的属性name一样,该属性包含太多不同值,因此应当在概化中删除8)gpa:假定存在gpa的概念分层,将等级分成数据区间,如3.75-4.0,3.5-3.75,它又按描述值excellent,very good,分组,这样,该属性可以被概化通过面向属性归纳得
16、到广义关系:gender majorBirth_countryAge_rangeResidence_citygpacountMScience Canda2025RichmondVery_good16FScience foreign 2530Burnaby excellent22q前提假设:S是训练样本的集合,每个样本的类标号是已知的,每个样本是一个元组,一个属性用于确定训练样本的类例如属性status可以用于定义每个样本的类标号,或是graduate,或是undergraduate.这里假设m个类设S包含 Si个i类样本,i=1,m.一个任意样本属于类i的可能性是si/s,其中s是集合中S中对
17、象的总数 q给定样本分类所需的期望信息期望信息:(s1,s2,sm)=si/slog2si/sI=1 q每个属性的熵:E(A)=(s1j+smj)/s*I(s1j+smj)q每个属性在该划分上获得的信息增益:Gain(A)=I(s1,s2,sm)-E(A)q具有最高信息增益的属性是给定集合中具有最高区分度的属性。v假定给定1998和1999年某公司的销售数据,希望比较这两个类。维location具有抽象层:cityprovince_or_statecountry,每个数据类都应该概化到同一抽象层。如city层,这样比较有意义。v类比较过程:类比较过程:数据收集:数据收集:通过查询处理收集数据库
18、中相关数据集,并将它划分成一个目标类和一个或多个对比类。维相关分析:维相关分析:用前边介绍的信息增益法分析出强相关的维。同步概化:同步概化:概化在目标类上进行,概化到用户或专家指定的维阈值控制层,产生主目标类关系方体。对比类概念概化到与主目标类关系方体相同的层次,形成主对比类关系方体。导出比较的表示:结果类比较描述可以用表、图、或规则的形式化可视化。l数据库中的数据一般都存在着关联关系,也就是说,两个或多个变量的取值之间存在某种规律性。这种关联关系有简单关联和时序关联两种。l简单关联,例如;购买面包的顾客中有90%的人同时购买牛奶。l时序关联,例如:若AT&T股票连续上涨两天且DEC股票不下跌
19、,则第三天IBM股票上涨的可能性为75%。它在简单关联中增加了时间属性。l同一次去超市,如果顾客购买牛奶,则他也购买面包的可能性有多大?l通过了解哪些商品频繁地被顾客同时购买,这些关联规则的发现可以帮助零售商制定营销策略。在美国,一些年轻的父亲下班后经常要到超市去买婴儿尿布,超市也因此发现了一个规律,在购买婴儿尿布的年轻父亲们中,有30%-40%的人同时要买一些啤酒。超市随后调整了货架的摆放,把尿布和啤酒放在一起,明显增加了销售额。同样的,我们还可以根据关联规则在商品销售方面做各种促销活动。挖掘过程:1)找出所有频繁项集 2)由频繁项集产生强关联规则由事物数据库挖掘单维布尔关联规则Aprior
20、i算法:使用候选项集找频繁项集。Apriori性质:频繁项集的所有非空子集都必须也是频繁的。该性质应用于算法中,由连接和剪枝来实现频繁项集的查找。l项集:任务相关的数据集合:I=i1,i2,iml关联规则:AI,B I,形如的蕴涵式l支持度s:support(A B)=P(A B)l置信度c:confidence(A B)=P(B|A)l强规则:同时满足最小支持度阈值(min_sup)和最小置信度阈值(min_conf)的规则。l频繁项集:项集的出现频率是包含项集的事物数,如果项集满足最小支持度,则称它为频繁项集。利用利用Apriori算法找出所有频繁项集算法找出所有频繁项集例:设某分店的事物
21、数据如下,用Apriori算法寻找频繁购买的商品。TID项ID的列表T100I1,I2,I5T200I2,I4T300I2,I3T400I1,I2,I4T500I1,I3T600I2,I3T700I1,I3T800I1,I2,I3,I5T900I1,I2,I3项集支持度计数I16I27I36I42I52扫描D,对每个候选计数比较候选支持度计数与最小支持度计数项集支持度计数I16I27I36I42I52C1L1项集I1,I2I1,I3I1,I4I1,I5I2,I3I2,I4I2,I5I3,I4I3,I5I4,I5由L1产生候选C2扫描D,对每个候选计数项集支持度计数I1,I2 4I1,I3 4I
22、1,I4 1I1,I5 2I2,I3 4I2,I4 2I2,I5 2I3,I4 0I3,I5 1I4,I5 0项集支持度计数I1,I2 4I1,I3 4I1,I5 2I2,I3 4I2,I4 2I2,I5 2比较候选支持度计数于最小支持度C2C2L2项集I1,I2,I3I1,I2,I5由L2产生候选C3项集支持度计数I1,I2,I3 2I1,I2,I5 2项集支持度计数I1,I2,I3 2I1,I2,I5 2扫描D,对每个候选计数比较候选支持度计数于最小支持度C3C3L3置信度:confidence(AB)=P(A|B)=support_count(AB)/support_count(A)关联
23、规则产生如下:对于每个频繁项集l,产生l的所有非空子集。对于每个非空子集s,如果support_count(l)/support_count(s)min_conf,则输出规则“s(l-s)”。其中,min_conf是最小置信度阈值。例:假定数据包含频繁项集 l=I1,I2,I5,可以产生哪些关联规则?L的非空子集有I1,I2,I1,I5,I2,I5,I1,I2和I5.结果关联规则如下,每个都列出置信度。I1I2I5,confidence=2/4=50%I1I5I2,confidence=2/2=100%I2I5I1,confidence=2/2=100%I1 I2 I5,confidence=
展开阅读全文