数据挖掘5概念描述特征化与比较课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘5概念描述特征化与比较课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 描述 特征 比较 课件
- 资源描述:
-
1、2022-8-121概念描述概念描述2022-8-122特征化和比较特征化和比较n什么是概念描述什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n解析特征化解析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较挖掘类比较:获取不同类之间的不同处获取不同类之间的不同处n在大型数据库中挖掘描述统计度量在大型数据库中挖掘描述统计度量n讨论讨论n总结总结2022-8-123什么是概念描述什么是概念描述?n描述性 vs.预测性 数据挖掘n描述性数据挖掘描述性数据挖掘:n预测性数据挖掘预测性数据挖掘:n概念描述:n特征化特征化:对所选择的数据集给出一个简单明了的描述,汇总n
2、比较比较:提供对于两个或多个数据集进行比较的描述2022-8-124概念描述和概念描述和OLAPOLAP区别区别n概念描述:n 能够处理复杂的数据类型和各种汇总方法n 更加自动化nOLAP:OLAP:n只能限制于少量的维度和数据类型n用户控制的流程2022-8-125特征化和比较特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化数据概化和基于汇总的特征化n分析特征化:分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2022-8-126数据概化和基于汇总的特征化数据概化和基于汇总的特征化n数据概化n将大量的相关数据从一个较低的概念层次抽
3、象、转化到一个比较高的层次n方法:nOLAP方法:n面向属性的归纳2022-8-127OLAPOLAP方法方法n在数据立方体上进行计算和存储结果n优点n效率高n能够计算多种汇总n如:count,average,sum,min,maxn还可以使用roll-down和roll-up操作n限制n只能处理非数值化数据和数值数据的简单汇总。n只能分析,不能自动的选择哪些字段和相应的概念层次2022-8-128面向属性的归纳nKDD Workshop(89)中提出n不限制于种类字段和特定的汇总方法n方法介绍:n使用SQL等收集相关数据n通过数据属性值删除和属性值概化来实现概化n聚集通过合并相等的广义元组,
4、并累计他们对应的计数值进行n和使用者之间交互式的呈现方式.2022-8-129基本方法基本方法n数据聚焦数据聚焦:选择和当前分析相关的数据,包括维。n属性删除属性删除:如果某个属性包含大量不同值,但是 1)在该属性上没有概化操作,或者2)它的较高层概念用其它属性表示。n属性概化属性概化:如果某个属性包含大量不同值,同时在该属性上有概化操作符,则运用该操作符进行概化。n属性阈值控制属性阈值控制:typical 2-8,specified/default.n概化关系阈值控制概化关系阈值控制:控制最终关系的大小2022-8-1210基本算法基本算法nInitialRelInitialRel:得到相关
5、数据,形成初始关系表nPreGen:通过统计不同属性的含有的不同值的个数决定是丢弃该属性还是对其进行汇总。nPrimeGen:根据上一步的计算结果,对属性概化到相应的层次,计算汇总值,得到主概化关系。n结果的表示结果的表示:概化关系、交叉表、3D立方体2022-8-1211示例示例nDMQL:use Big_University_DBmine characteristics as“Science_Students”in relevance to name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwh
6、ere status in“graduate”n相应的相应的SQL:SQL:Select name,gender,major,birth_place,birth_date,residence,phone#,gpafrom studentwhere status in“Msc”,“MBA”,“PhD”2022-8-1212类特征化:示例类特征化:示例NameGenderMajorBirth-PlaceBirth_dateResidencePhone#GPAJimWoodman M CSVancouver,BC,Canada 8-12-763511 Main St.,Richmond687-459
7、83.67ScottLachance M CSMontreal,Que,Canada28-7-75345 1st Ave.,Richmond253-91063.70Laura Lee FPhysicsSeattle,WA,USA25-8-70125 Austin Ave.,Burnaby420-52323.83RemovedRetainedSci,Eng,BusCountryAge rangeCityRemovedExcl,VG,.GenderMajorBirth_regionAge_rangeResidenceGPACount MScience Canada 20-25RichmondVer
8、y-good 16 FScience Foreign 25-30BurnabyExcellent 22 Birth_RegionGenderCanadaForeignTotal M 16 14 30 F 10 22 32 Total 26 36 62Prime Generalized RelationInitial Relation2022-8-1213概化结果的表示概化结果的表示n概化关系:n一个表格,其中有属性字段,后附汇总方法。n交叉表:n二维交叉表n可视化方法:nPie charts,bar charts,curves,cubes,and other visual forms.n量化特
9、征规则:(上表与上表与136页例页例4.26).%47:)(_%53:)(_)(tforeignxregionbirthtCanadaxregionbirthmalexgender2022-8-1214表达方式表达方式-概化关系概化关系(133页例页例4.22)2022-8-1215表达方式表达方式交叉表交叉表(133页例页例4.23)2022-8-1216使用使用CubeCube技术进行实现技术进行实现n对给定的数据动态创建数据立方体:对给定的数据动态创建数据立方体:n便于有效的下钻操作n可能增加响应时间n解决方法:实现存储一些较高层次的统计信息。n使用预定义的数据立方体:使用预定义的数据立
10、方体:n预先构建数据立方体nCube计算的花费和额外的存储空间2022-8-1217特征化和比较n什么是概念描述?n数据概化和基于汇总的特征化n分析特征化分析特征化:分析属性之间的关联性分析属性之间的关联性n挖掘类比较:获取不同类之间的不同处n在大型数据库中挖掘描述统计度量n讨论n总结2022-8-1218属性相关性分析属性相关性分析nwhy?n哪些维需要包括?n需要概化到什么层次?n减少属性;从而容易理解模型结果nWhat?n使用统计的方法进行数据预处理n过滤掉一些不相关或者相关性比较弱的字段n保留并对相关属性进行排序n相关性和维度、层次有关n分析特征化,分析比较 2022-8-1219属性
11、相关性分析属性相关性分析n步骤:n数据收集n使用保守的AOI进行预相关分析n相关性分析,删除不相关和弱相关属性n使用AOI产生概念描述2022-8-1220相关性度量标准相关性度量标准n相关性度量标准决定了如何对属性进行判断的标准n方法n信息增益information gain(ID3)n增益比gain ratio(C4.5)nGini索引gini indexn不确定性n相关系数2022-8-1221Entropy 和 Information Gainn集合S中类别Ci的记录个数是si 个 i=1,m n期望信息n属性A的熵是n信息增益ssss,.,s,ssimiim2121log)I()s,
12、.,s(Iss.sE(A)mjjvjmjj111E(A)s,.,s,I(sGain(A)m212022-8-1222一个例子一个例子(131页例页例5.9)n任务n使用分析特征化来了解研究生的一般特征n属性名称 gender,major,birth_place,birth_date,phone#,and gpanGen(ai)=concept hierarchies on ainUi=attribute analytical thresholds for ainTi=attribute generalization thresholds for ainR=attribute relevance
13、 threshold2022-8-1223例子:分析特征化(续)例子:分析特征化(续)n1.数据收集ntarget class:graduate studentncontrasting class:undergraduate studentn2.使用 Ui分析概化n属性删除nremove name and phone#n属性概化n generalize major,birth_place,birth_date and gpanaccumulate countsn候选关系:gender,major,birth_country,age_range and gpa2022-8-1224例子:分析特征
14、化例子:分析特征化(2)(2)Candidate relation for Target class:Graduate students(=120)Candidate relation for Contrasting class:Undergraduate students(=130)2022-8-1225例子:分析特征化例子:分析特征化(3)(3)n3.相关性分析n计算期望信息n计算每个属性的熵998802501302501302501202501201301202221.loglog),I()s,I(sFor major=”Science”:S11=84S21=42I(s11,s21)=0
15、.9183For major=”Engineering”:S12=36S22=46I(s12,s22)=0.9892For major=”Business”:S13=0S23=42I(s13,s23)=0Number of grad students in“Science”Number of undergrad students in“Science”2022-8-1226例子:分析特征化例子:分析特征化(4)(4)n得出每个属性的熵n计算每个属性的Information GainnInformation gain for all attributes787302504225082250126
16、231322122111.)s,s(I)s,s(I)s,s(IE(major)2115021.E(major)s,I(s)Gain(majorGain(gender)=0.0003Gain(birth_country)=0.0407Gain(major)=0.2115Gain(gpa)=0.4490Gain(age_range)=0.59712022-8-1227例子:分析特征化例子:分析特征化(5)(5)n4.Initial working relation(W0)derivationnR=0.1n删除不相关或者弱相关的属性=drop gender,birth_countryn删除比较类的关
展开阅读全文