数据挖掘技术概述课件1.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘技术概述课件1.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 概述 课件
- 资源描述:
-
1、提纲v数据挖掘概览v数据预处理v分类(Classification)v聚类(Cluster)v关联规则(Association Rule)v回归(Regression)数据挖掘概览vWhat?数据挖掘的定义vWhy?数据挖掘的动机vHow?哪些数据可以用来挖掘?数据挖掘的主要内容数据挖掘定义v什么是数据挖掘(Data Mining)?Extraction of interesting(non-trivial,implicit,previously unknown and potentially useful)patterns or knowledge from huge amount of d
2、ata 其他称谓:vKnowledge discovery(mining)in database(KDD),data/pattern analysis,business intelligence,decision-support system,knowledge extraction,data archeology,data dredging and information harvesting etc.DatapreprocessingDataminingpostprocessingknowledgeraw dataFeature selectionDimension reductionNo
3、rmalizationData subsettingFiltering patternsVisuaralizationPattern interpretationData Mining Process模式有效性度量vSimplicityE.g.,(association)rule length,(decision)tree size vCertaintyE.g.,confidence,P(A|B)=#(A and B)/#(B),classification reliability or accuracy,rule strength,etc.vUtilityPotential usefulne
4、ss,e.g.,support(association),noise threshold(description)vNoveltyNot previously known,surprising(used to remove redundant rules)为何需要数据挖掘?1.数据量大2.缺乏理论知识3.数据挖掘可以帮助产生新的假说或者使数据变得有意义为何需要数据挖掘?vWe are drowning in data,but starving in knowledge Data explosion:Automated data collection tools and mature datab
5、ase technology lead to tremendous amounts of data accumulated and/or to be analyzed in databases,data warehouses,and other information repositories.苦恼:淹没在数据中;不能制定合适的决策!n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府n人口统计人口统计n生命周期生命周期数据挖掘的
6、意义数据挖掘应用v银行美国银行家协会(ABA)预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是14.9。分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等v电子商务网上商品推荐;个性化网页;自适应网站v生物制药、基因研究DNA序列查询和匹配;识别基因序列的共发生性 v电信欺诈甄别;客户流失v保险、零售数据挖掘应用Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural Networks Neural Networks聚类分析聚类分析 Clust
7、ering ClusteringOpenAccntAdd NewProductDecreaseUsage?Time序列分析序列分析 Sequence Analysis Sequence Analysis决策树决策树 Decision Trees Decision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 Association Association 市场组合分析 套装产品分析 目录设计 交叉销售数据挖掘步骤v数据预处理数据清理(消除噪音或不一致数据,补缺)数据集成(多种数据源可以组
8、合在一起)数据变换(规范化)数据规约(数据简化)v数据挖掘算法(使用智能方法提取数据模式)分类、聚类、关联分析、回归预测、文本挖掘v质量评估(识别提供知识的真正有趣模式)v知识表示(可视化和知识表示技术)数据质量:为何需要数据预处理?v数据质量衡量:准确度:correct or wrong,accurate or not完整度:not recorded unavailable一致性:some modified but some not,dangling时效性:timely update?可信度:how trustable the data are correct?可解释性:how easily
9、 the data can be understood?数据挖掘预处理的主要任务v数据清理填写空缺的值,平滑噪声数据,识别、删除孤立点,解决不一致性v数据集成集成多个数据库、数据立方体或文件v数据变换规范化和聚集v数据归约得到数据集的压缩表示,它小得多,但可以得到相同或相近的结果v数据离散化数据归约的一部分,通过概念分层和数据的离散化来规约数据,对数字型数据特别重要数据清洗v脏数据:例如设备错误,人或者机器错误,传输错误等不完整性:属性值缺失或者只有聚集数据v例如:phone=“”;噪音:包含噪声、错误或者异常值v例如:salary=-10不一致性:v例如:age=42,birthday=03
10、-07-2010假值:v例如:使用某一值填补缺失属性缺失值(Incomplete/Missing Data)v数据并不总是完整的例如:数据库表中,很多条记录的对应字段没有相应值,比如销售表中的顾客收入v引起空缺值的原因设备异常与其他已有数据不一致而被删除因为误解而没有被输入的数据在输入时,有些数据因为得不到重视而没有被输入对数据的改变没有进行日志记载v空缺值要经过推断而补上如何补充缺失值v忽略元组:当类标号缺少时通常这么做(假定挖掘任务设计分类或描述),当每个属性缺少值的百分比变化很大时,它的效果非常差。v人工填写空缺值:工作量大,可行性低v使用一个全局变量填充空缺值:比如使用unknown或
11、-v使用属性的平均值填充空缺值v使用与给定元组属同一类的所有样本的平均值v使用最可能的值填充空缺值:使用像使用最可能的值填充空缺值:使用像BayesianBayesian公公式或判定树这样的基于推断的方法式或判定树这样的基于推断的方法噪声数据v噪声:一个测量变量中的随机错误或偏差v引起不正确属性值的原因数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致v其它需要数据清理的数据问题重复记录不完整的数据不一致的数据如何处理噪声数据v分箱分箱:first sort data and partition into(equi-depth)binsthen one can smooth b
12、y bin means,smooth by bin median,smooth by bin boundaries,etc.v聚类聚类detect and remove outliersv人机融合人机融合detect suspicious values and check by human(e.g.,deal with possible outliers)v回归回归smooth by fitting the data into regression functions分箱(Binning)v等宽Equal-width(distance)partitioning:Divides the rang
13、e into N intervals of equal size:uniform gridif A and B are the lowest and highest values of the attribute,the width of intervals will be:W=(B A)/N.The most straightforward,but outliers may dominate presentationSkewed data is not handled well.v等深Equal-depth(frequency)partitioning:Divides the range i
14、nto N intervals,each containing approximately same number of samplesGood data scalingManaging categorical attributes can be tricky.数据平滑的分箱方法vprice的排序后数据(单位:美元):4,8,15,21,21,24,25,28,34v划分为(等深的)箱:箱1:4,8,15箱2:21,21,24箱3:25,28,34v用箱平均值平滑:箱1:9,9,9箱2:22,22,22箱3:29,29,29v用箱边界平滑:箱1:4,4,15箱2:21,21,24箱3:25,2
15、5,34聚类:Cluster Analysis每个簇中的数据用其中心值代替忽略孤立点先通过聚类等方法找出孤立点。这些孤立点可能包含有用的信息。人工再审查这些孤立点Regression通过构造函数来符合数据变化的趋势,这样可以用一个变量预测另一个变量。线性回归 多线性回归非线性回归XY2211XXY33221XXXYxyy=x+1X1Y1Y1数据集成v实体识别元数据可帮助避免错误知识图谱v属性冗余相关分析v数据重复(元组冗余)v数据值冲突的检测与处理表示、比例或编码不同 数据变换(规范化)v平滑:去掉数据中的噪声。技术包括分箱、回归、聚类。v聚集:对数据进行汇总或聚集。v数据泛化(概化):使用概
16、念分层,用高层概念替换低层或“原始”数据。v规范化:将属性数据按比例缩放,使之落入一个小的特定区间。最小-最大、Z-Score、按小数定标规范化。数据变换平滑,聚集数据概化,规范化属性构造(特征构造)有限区间的归一化:无限区间的归一化:模糊隶属度:minmaxminvvvev11数据规约v海量数据 代表性数据v对海量数据进行复杂的数据分析和挖掘将需要很长时间,使得这种分析不现实或不可行。v数据归约技术可以用来得到数据集的归约表示,它小得多,但仍接近保持原数据的完整性。v对归约后的数据集挖掘将更有效,并产生相同(或几乎相同)的结果。数据规约数据归约策略:(1)数据立方体聚集:对数据立方体做聚集操
17、作(2)属性子集选择:检测并删除不相关、弱相关或冗余的属性和维。(3)维度归约:删除不重要的属性(4)数值归约:用规模较小的数据表示、替换或估计原始数据(5)离散化和概念分层产生属性的原始数值用区间值或较高层的概念替换数据立方体v据立方体存储多维聚集信息,提供对预计算的汇总数据进行快速访问。v如:立方体内存储季度销售额,若对年销售额感兴趣,可对数据执行聚集操作,例如sum()等。属性子集选择v通过删除不相关或冗余的属性(或维)减小数据集。v其目标是找出最小属性集,使得数据类的概率分布尽可能地接近使用所有属性得到的原分布。v通过穷举搜索找出有属性的最佳子集是不现实的。通常采用压缩搜索空间的启发式
18、算法。v如贪心算法:从局部最优到全局最优。逐步向前选择逐步向后删除向前选择和向后删除的结合决策树归纳维度规约v维度归约使用数据编码或变换,以便得到原数据的归约或“压缩”表示。v分为无损和有损两种。v主要方法:串压缩:无损,但只允许有限的数据操作。小波变换(DWT):有损,适合高维数据。主成分分析(PCA):有损,能更好地处理稀疏数据。数值规约v通过选择替代的、“较小的”数据表示形式来减少数据量。v可以分为参数方法和非参数方法。参数方法:回归(regression)和对数线性模型非参数方法:直方图、聚类、抽样离散化v离散化的用途:(1)适应某些仅接受离散值的算法;(2)减小数据的尺度。v离散化的
19、方法包括几下几种。(1)等距分割;(2)聚类分割;(3)直方图分割;(4)基于熵的分割;(5)基于自然属性的分割。抽样v用数据的小得多的随机样本(子集)不是大型数据集。v抽样方法s个样本无放回简单随机抽样s个样本有放回简单随机抽样聚类抽样分层抽样分类分类v分类是指将数据映射到预先定义好的群组或类。v在分析测试数据之前,类别就已经被确定了,所以分类统称被称作有指导的学习。v分类算法要求基于数据属性来定义类别。v分类算法通常通过观察已知所属类别的数据的特征来描述类别。分类应用v分类具有广泛的应用,例如医疗诊断、信用卡系统的信用分级、图像模式识别等。为了识别乘客是否是潜在的恐怖分子或罪犯,机场安全摄
20、像站需要对乘客的脸部进行扫描并辨识脸部的基本模式(例如双眼间距、嘴的大小及形状、头的形状),然后将得到的模式与数据库中的已知恐怖分子或罪犯的模式进行逐个比较,看看是否与其中的某一模式相匹配。分类步骤1建立一个模型,描述预定的数据类集或概念集数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训练数据集。训练数据集中的单个元组称作训练样本,假定每个元组属于一个预定义的类,由一个称作类标号。通过分析训练数据集来构造分类模型,可用分类规则、决策树或数学公式等形式提供。2.使用模型进行分类首先评估模型(分类法)的预测准确率。v将已知的类标号与该样本的学习模型类预测比较v准确率等于测试集的样
21、本中被模型正确分类的百分比v测试集应该与训练集的内容相互独立,否则会出现过分适应的情况如果认为模型的准确率可以接受,就可以用它对类标号未知的数据元组或对象进行分类。(1)模型的构建TrainingDataClassificationAlgorithmsIF rank=professorOR years 6THEN tenured=yes Classifier(Model)NAME RANKYEARSTENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssist
22、ant Prof6noAnneAssociate Prof3no(2)利用模型分类ClassifierTestingDataN A M ER A N KY E A R S TE N U R E DTomA ssistant P rof2noM erlisaA ssociate P rof7noG eorge P rofessor5yesJoseph A ssistant P rof7yesUnseen Data(Jeff,Professor,4)Tenured?分类方法评价v预测的准确率这涉及模型正确地预测新的或先前未见过的数据的类标号的能力v速度构造模型的速度利用模型进行分类的速度v强壮性给
23、定噪声数据或具有空缺值的数据,模型正确预测的能力v可伸缩性当给定大量数据时,有效地构造模型的能力v可解释性 涉及学习模型提供的理解和洞察的层次分类器性能评价方式v准确率和召回率-混淆矩阵等v给定一个类Cj和一个数据库元组ti,ti可能被分类器判定为属于Cj或不属于Cj,其实ti本身可能属于Cj或不属于Cj,这样就会产生如下一些情况:真正:判定ti在Cj中,实际上的确在其中。假正:判定ti在Cj中,实际上不在其中。真负:判定ti不在Cj中,实际上不在其中。假负:判定ti不在Cj中,实际上的确在其中。准确率:P=A/(A+B)召回率:R=A/(A+C)评估分类方法的准确性v保持方法给定数据随机划分
24、为两个集合:训练集(2/3)和测试集(1/3)训练集导出分类法,测试集对其准确性进行评估vk-折交叉验证初始数据被划分为k个不相交的,大小大致相同的子集S1,S2Sk进行k次训练和测试,第i次时,以Si做测试集,其他做训练集准确率为k次迭代正确分类数除以初始数据集样本总数分类方法基于距离的分类方法v与一个类中的成员和另一个类中的成员之间的相似性相比,被映射到同一个类中的成员彼此之间被认为是更加相似的。v相似性(距离)度量可以用来识别数据库中不同成员之间的“相似程度”。基于距离的分类方法的直观解释(a)类定义)类定义(b)待分类样例)待分类样例(c)分类结果)分类结果距离计算方法v闵可夫斯基距离
25、:当p=2时,为欧几里得距离当p=1时,为曼哈顿距离当p-时,为切比雪夫距离v向量内积:v夹角余弦:vJaccard:还有信息熵、相关系数等其他的度量方法(|xiyi|pi1n)1/pInner(x,y)x,y xiyiicosqx1x2y1y2x12y12x22y22J(A,B)|AB|AB|基于距离的分类方法的一般性描述v算法算法 基于距离的分类算法基于距离的分类算法v输入:每个类的中心输入:每个类的中心C1,Cm;待分类的元组;待分类的元组t。v输出:输出类别输出:输出类别c。(1)dist=;/距离初始化距离初始化(2)FOR i:=1 to m DO(3)IF dis(ci,t)di
展开阅读全文