数据挖掘技术-分类预测-聚类-关联规则(2)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘技术-分类预测-聚类-关联规则(2)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 技术 分类 预测 聚类 关联 规则 课件
- 资源描述:
-
1、1数据挖掘技术第二部分 分类预测、聚类、关联规则2数据挖掘提纲数据挖掘提纲p 第一部分- 概述概述- 相关概念相关概念- 数据挖掘技术数据挖掘技术p第二部分第二部分-分类-聚类-关联规则p 第三部分- Web 挖掘挖掘- 空间数据挖掘空间数据挖掘- 时序数据挖掘时序数据挖掘3分类分类p分类问题概述p分类技术- 基于统计的算法基于统计的算法- 基于距离的算法基于距离的算法- 基于决策树的算法基于决策树的算法- 基于规则的算法基于规则的算法- 基于神经网络的算法基于神经网络的算法- 支持向量机支持向量机4分类问题分类问题p给定一个由元组组成的数据库(数据集) D=t1,t2,tn 和一个类别集合
2、C=C1,Cm, 分分类问题类问题 是指定义一个映射 f:DgC ,其中每个元组 ti 被分配到一个类中.p预测预测 是一种特殊的分类, 连续时可看成无限多类,离散时就是分类了.5分类举例分类举例p老师根据分数将学生分类为 A, B, C, D, 和 F. p识别蘑菇是否有毒.p预测何时何地会发洪水.p识别个人的信用风险. p语音识别p模式识别6等级分类等级分类px = 90 等级 =A.p80=x90 等级 =B.p70=x80 等级 =C.p60=x70 等级 =D.px=90=80=70=6050 xCD7字母识别字母识别一个字母由五个组成部分组成:Letter CLetter ELet
3、ter ALetter DLetter FLetter B8分类方法分类方法p步骤步骤:1. 通过对训练集进行计算产生一个特定通过对训练集进行计算产生一个特定的模型。训练数据作为输入,以计算的模型。训练数据作为输入,以计算得到的模型作为输出得到的模型作为输出2. 将产生的模型应用于目标数据库中对将产生的模型应用于目标数据库中对元组进行分类元组进行分类.p类别必须预先定义类别必须预先定义p最常用的算法包括决策树,神经网络,及基最常用的算法包括决策树,神经网络,及基于距离,统计等算法于距离,统计等算法.9定义类别定义类别分割分割基于距离基于距离10分类中的问题分类中的问题p缺失数据- 忽略忽略-
4、利用假定值来替换利用假定值来替换p性能度量- 分类精度分类精度- 混淆矩阵混淆矩阵- ROC 曲线曲线11身高数据例子身高数据例子Nam e Gender Height Output1 Output2 Kristina F 1.6m Short Medium Jim M 2m Tall Medium Maggie F 1.9m Medium Tall Martha F 1.88m Medium Tall Stephanie F 1.7m Short Medium Bob M 1.85m Medium Medium Kathy F 1.6m Short Medium Dave M 1.7m Sh
5、ort Medium W orth M 2.2m Tall Tall Steven M 2.1m Tall Tall Debbie F 1.8m Medium Medium Todd M 1.95m Medium Medium Kim F 1.9m Medium Tall Amy F 1.8m Medium Medium W ynette F 1.75m Medium Medium 12分类表现:分类表现:混淆矩阵混淆矩阵真正例真反例假正例假反例13ROC 曲线曲线14回归回归p根据输入值估计一个输出值p确定最佳的 回归系数回归系数 c0,c1,cn.p假设出一个误差: y = c0+c1x1
6、+cnxn+ep可以利用均方差函数估计线性回归模型拟合实际数据的精度:15线性拟合误差线性拟合误差16回归用于分类回归用于分类p分割分割: 利用回归函数,将空间划分成一些区域,每一个类对应一个区域. p预测预测: 通过回归,产生一个可以用于预测类别值的线性公示17分割分割18预测预测19基于距离法的分类基于距离法的分类p将更接近或更相似的成员映射到同一个类别当中去p必须确定项之间或者类之间的距离 .p类别描述-质心: 中心值中心值.-中心点: 代表点代表点.- 各个元组各个元组p算法: KNN20K最近邻 (KNN):p训练集包括了类别标签.p进一步考虑训练集中K个与新元组相距最近的元组.p新
7、元组将被分配到一个包含了K个最近元组中最多元组的那一类.pO(q) 是该问题的时间复杂度. (q 训练集中元组的个数.)21KNN22KNN 算法算法23基于决策树的算法基于决策树的算法p基于区域划分基于区域划分: 将搜索空间划分为一些矩形区域.p根据元组落入的区域对元组进行分类.p大部分研究集中在如果有效的构建树: 决策树归纳决策树归纳p内部结点标记为一个属性,属性值为弧p算法: ID3, C4.5, CART24决策树决策树给定: - D = t1, , tn ,其中,其中 ti= - 数据库模式包含下列属性数据库模式包含下列属性 A1, A2, , Ah- 类别集合类别集合 C=C1,
8、., Cm决策树或分类数决策树或分类数 是具有下列属性的树- 每个内部结点都标记一个属性每个内部结点都标记一个属性, Ai- 每个弧都被标记一个谓词,这个谓词可应用于相应的父每个弧都被标记一个谓词,这个谓词可应用于相应的父结点的属性结点的属性- 每个叶结点都被标记一个类每个叶结点都被标记一个类, Cj25DT 算法算法26决策树划分区域决策树划分区域 GenderHeightMF27决策树对比决策树对比平衡树深的树28决策树的问题决策树的问题p选择分裂属性p分裂属性次序p分裂p树的结构p停止准则p训练数据p剪枝29决策树往往基于信息论构建决策树往往基于信息论构建So 30信息信息31信息信息/
9、熵熵p给定概率 p1, p2, ., ps ,之和为 1, 熵的定义为:p熵是数据不确定性、突发性或随机性程度的度量.p分类的目标- 没有不确定性没有不确定性- 熵为熵为 032熵熵log (1/p)H(p,1-p)33ID3p基于信息论构建决策树的ID3技术试图使比较的期望数最小化。pID3 利用最高信息增益属性作为分裂属性:34ID3 例子例子p 初始集合的熵:4/15 log(15/4) + 8/15 log(15/8) + 3/15 log(15/3) = 0.4384p 性别作为分裂属性的信息增益:- 女女: 3/9 log(9/3)+6/9 log(9/6)=0.2764- 男男:
10、 1/6 (log 6/1) + 2/6 log(6/2) + 3/6 log(6/3) = 0.4392- 加权和加权和: (9/15)(0.2764) + (6/15)(0.4392) = 0.34152- 增益增益: 0.4384 0.34152 = 0.09688p 身高作为分裂属性的信息增益:0.4384 (2/15)(0.301) = 0.3983p 选择身高作为第一个分裂属性35C4.5pID3 偏袒具有较多值的属性p ID3的改进版本:- 缺失数据缺失数据- 连续数据连续数据- 剪枝剪枝- 规则规则- 分裂分裂:36基于神经网络的算法基于神经网络的算法p传统神经网络算法用于分类
11、:- 对每个类别都有一个输出结点对每个类别都有一个输出结点- 输出值表示相应的输入元组属于某类的概率输出值表示相应的输入元组属于某类的概率p有指导的学习 p训练集中的每个元组输入后,由图中得到的分类与实际比较,基于预测精度改变图中的各种标记值(权值). p算法: 传播, 反传播, 梯度下降37神经网络分类需要考虑的问题神经网络分类需要考虑的问题 p属性(源结点数目)p隐含层的数目,隐含结点的数目p训练数据p汇结点的数目p连接p权值p激活函数p学习技术p停止准则38决策树和神经网络对比决策树和神经网络对比39传播传播Tuple InputOutput 40NN 传播算法传播算法41传播例子传播例
12、子 Prentie Hall42神经网络有指导学习神经网络有指导学习p调整弧的权值的过程.p有指导学习有指导学习: 期望的输出是已知的.p无指导学习无指导学习: 不知道输出情况下的学习.p本章内容是有指导的学习43神经网络的有指导学习神经网络的有指导学习44有指导学习有指导学习p假设结点i 输出为yi,而实际的输出应该为di:p基于输出值是否正确这一信息,来改变输入弧上的权值45NN 反向传播反向传播p反向传播是一种调整神经网络权值的学习技术.pDelta 准则准则: r wij= c xij (dj yj)p梯度下降梯度下降: 网络调整权值的技术.46反向传播反向传播Error47反向传播算
13、法反向传播算法48梯度下降梯度下降49梯度下降算法梯度下降算法50输出层学习输出层学习51隐藏层学习隐藏层学习52径向基函数网络径向基函数网络pRBF 具有高斯函数的形状pRBF 网络- 三层三层- 隐藏层隐藏层 高斯激励函数高斯激励函数- 输出层输出层 线性激励函数线性激励函数53径向基函数网络径向基函数网络54感知器感知器p感知器是最简单的神经网络.p没有隐藏层.55感知器例子感知器例子p假设:- S=3x1+2x2-6- 激励函数激励函数: if S0 then 1 else 056支持向量机支持向量机pSVM:线性可分57SVM:线性可分:线性可分p最优分类超平面问题可以表示成约束优化
14、问题优分类超平面问题可以表示成约束优化问题- Minimize- Subject top定义定义Lagrange函数函数211( )()22() 1,1,.,iiwww wyw xbilliiiibwxywbwL1221) 1)(),(58SVM:线性可分:线性可分aminmjijTijijimiiaxxyyaaaaL1,121)(miayaimiii , 1, 0, 01s.t p 对偶问题对偶问题标准的二次优化问题,在不等式约束条件下进行二次函数寻优。存在唯一解 。*p决策函数决策函数)(sgn()(1miiiibxxyxf引入核函数引入核函数可解决非线性可解决非线性可分问题可分问题),(
15、jixxK 线性不可分?线性不可分?59SVM: 非线性非线性核函数:从低维空间映射到高维空间60基于规则的分类算法基于规则的分类算法p使用 If-Then 规则执行分类p分类准则分类准则: r = 前件前件, 后件后件p可以由其他技术生成规则 (DT, NN) 或者直接生成.p算法: Gen, RX, 1R, PRISM61从决策树生成规则从决策树生成规则62例子例子63从神经网络生成规则从神经网络生成规则641R 算法算法基于一个属性产生规则基于一个属性产生规则651R 例子例子66决策树决策树 vs. 规则规则 p树中有隐含的次序,按照次序产生分枝.p树是基于考虑所有类别产生的.p规则没
16、有次序.p一次仅需要考虑一个类别.67聚类聚类p聚类问题概述p聚类技术- 层次算法层次算法- 划分算法划分算法- 遗传算法遗传算法- 大型数据库聚类大型数据库聚类68聚类例子聚类例子p基于客户数据库的相似性采购模式.p基于相似特征城市住宅类别划分.p植物新品种鉴定p找出类似网络应用69聚类举例聚类举例70住房聚类住房聚类Geographic Distance Based71分类分类 vs聚类聚类p没有预先知道的知识- 类别的数目类别的数目- 类别的含义类别的含义p无指导的学习72聚类问题聚类问题p异常点的处理p动态数据p结果的解释p结果评价p分类数目p所需的数据p最优结果73异常点异常点74聚
17、类问题聚类问题p给定数据库 D=t1,t2,tn 和整数值 k, 那么聚类聚类问题问题 被定义为:定义一个映射 f:Dg1,.,k ,其中 ti 被映射到 Kj中p一个簇 ,Kj 由被映射到该簇中的元组组成.p与分类问题不同,聚类一般没有先验知识.75聚类方法分类聚类方法分类 p层次方法层次方法 产生一个嵌套的聚集.p划分方法划分方法 利用算法构造一个簇集,簇的数目由用户指定或系统指定.p增量模式增量模式 每个成员由算法一个个的依次处理.p同时处理模式同时处理模式 所有成员由算法一同处理.p重叠簇重叠簇/非重叠簇非重叠簇76聚类算法的分类聚类算法的分类聚类层次划分的类别的大型数据库凝聚分裂抽样
展开阅读全文