数据挖掘概念与技术课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘概念与技术课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 概念 技术 课件
- 资源描述:
-
1、数据挖掘概念与技术 第一课分类一、数据挖掘及知识的定义1、数据挖掘定义:从大量数据中提取或“挖掘”知识;2、数据挖掘技术:分类、预测、关联和聚类等;3、数据挖掘过程:数据的清理、集成、选择、变换、挖掘、模型评估、知识表示;4、知识定义:知识就是“压缩”浓缩就是精华!1)Occam Razor:因不宜超出果之需!2)信息论:熵3)MDL准则:minimum description length()( )log( )xH Xp xp x 第一课分类二、神经网络知识预备1、单层神经网络;2、多层神经网络。 第一课分类三、SPSS软件及Logistic回归知识预备1、回归方法分类多个因变量多个因变量(
2、y1,y2,yk)路径分析路径分析结构方程模型分析结构方程模型分析一个一个因变因变量量 y连续型因变量连续型因变量 (y) - 线性回归分析线性回归分析分类型因变量分类型因变量 (y) -Logistic 回归分析回归分析时间序列因变量时间序列因变量 (t) -时间序列分析时间序列分析生存时间因变量生存时间因变量 (t) -生存风险回归分析生存风险回归分析 第一课分类三、SPSS软件及Logistic回归知识预备2、回归方法适用前提1)大样本,样本量为自变量个数的20倍左右;2)因变量或其数学变换与自变量有线性关系;3)扰动项(误差项)符合正态分布;4)自变量间不存在诸如多重共线性等关系;5)
3、误差项方差不变;等等。 第一课分类三、SPSS软件及Logistic回归知识预备3、Logistic回归方法介绍1)Logit变换Logit变换是Logistic回归模型的基础。现实中常要研究某一事件A发生的概率P及P值的大小与某些影响因此之间的关系,但由于P对X的变化在P0或P1的附近不是很敏感的,或说是缓慢的,比如像可靠系统,可靠度P已经是0.998了,即使再改善条件和系统结构,它的可靠度增长也只能是在小数点后面的第三位或第四位之后,于是自然希望寻找一个P的函数形式(P),使它在P0或P1附近变化幅度较大,且最好函数形式简单,根据数学上导数的意义,提出用来反映(p)是在P附近的变化是很适合
4、的,同时希望P0或P1时,有较大的值,因此取,即:( )dpdp( )dpdp( )dpdp1(1)pp()ln1ppp 第一课分类三、SPSS软件及Logistic回归知识预备3、Logistic回归方法介绍2)Logistic回归设因变量是一个二分类变量,其取值为=1和=0。影响取值的个自变量分别为 ,则Logistic变换如下式表示:1,nXX01122ln()1PXXP 第一课分类四、神经网络与Logistic回归优缺点对比1、神经网络优缺点1)优点:数据类型无要求,高度智能,强“鲁棒”性,可进行非线性拟合,能容忍缺失值,异常值的出现等;2)缺点:“黑箱”过程导致知识结果难于解释。2、
5、Logistic回归方法优缺点1)优点:线性回归方程的知识结果使得所获知识易于解释;2)缺点:数据类型要求高,回归方法成立前提多,只适用于线性拟合,缺失值,异常值会导致结果精确度大为下降。3、二者区别:硬计算与软计算,知识表达方式不同 第二课预测一、相关概念1、神经网络的“过拟合”现象1)“过拟合”指的是神经网络对训练集进行训练的过程中,无法识别数据中的“噪音”,并且把“噪音”的影响毫无保留的存贮于网络参数(权重、偏置)中。“过拟合”会导致神经网络对测试集进行分类、预测时,产生不必要的偏差。2)解决“过似合”现象办法之一为Nfold交差验证。2、MSE、NMSE等概念的定义1)MSE:均方误差
6、(注:与均方差的区别),其定义为误差平方和除以它的自由度。21()niiiXXMSEn 第二课预测一、相关概念 2)NMSE定义:注:此处的方差为样本总体方差。NMSE的物理意义为标准化的MSE。2X2XM S EN M S E 第二课预测二、预测实验1、实验目的:1)理解分类与预测区别2)熟练使用神经网络软件NeuroSolutions解决预测问题。3)学会运用灵敏度分析,对属性进行灵敏度测量。4)学会通过多次训练模型,避免模型停止在局部最优。2、实验原理1)神经网络方法原理2)多元线性统计方法原理(注意什么是线性,其内涵是什么?)101,nnYXXXfY 第三课聚类分析一、聚类分析定义、特
7、征、应用及评估1、定义:将物理或抽象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。1)聚类的方法类型(1)划分方法:K平均和K中心算法;(2)层次方法:系统聚类;(3)基于密度方法:种类较多,对发现数据“噪音”有优势;(4)基于网格方法:小波聚类为典型,效率高,复杂度低;(5)基于模型方法:统计学中的分类树方法利用信息熵、贝叶斯统计原理为分类原则、竞争学习与自组织特征图。 第三课聚类分析一、聚类分析定义、特征、应用及评估2、聚类与分类的区别1)聚类所要划分的类未知,而分类要划分的类已知;2)聚类不依赖预先定义的类和带类标号的训练实例,因此它是观察式的学习,而不是示例学习;3)聚类的有
8、监督与分类的无监督的区别。3、聚类分析的应用:是一种重要的数据挖掘方法,广泛应用于信用卡欺诈、定制市场(移动客户划分及定价等)、医疗分析。特别是孤立点的挖掘与分析,有着重要的实际应用。4、聚类质量的评估:相异度 第三课聚类分析二、K平均聚类方法、系统聚类及决策树方法1、 K平均聚类方法1)原理:随机选择k个对象,每个对象初始地代表一个类的平均值或中心,对剩余每个对象,根据其到类中心的距离,被划分到最近的类;然后重新计算每个类的平均值。不断重复这个过程,直到所有的样本都不能再分配为止(指中心点改变很小的时候,称之为收敛)。 2) 特征:k事先定好;创建一个初始划分;再采用迭代的重定位技术进行;不
9、必确定距离矩阵;比系统聚类法运算量要小;适用于处理庞大的样本数据;适用于发现球状类。 3)缺点:平均值必须有定义,对于有些分类变量的集合不适用一;不同的初始值,结果可能不同;有些k均值算法的结果与数据输入顺序有关,如在线k均值算法,用爬山式技术(hill-climbing)来寻找最优解,容易陷入局部极小值;对孤立点敏感。 第三课聚类分析二、K平均聚类方法、系统聚类及决策树方法1、 系统聚类1)原理:SPSS软件中,Hierarchical Cluster过程使用的就是系统聚类法来进行分析,该方法的原理是先将所有N个变量看成不同的N类,然后将性质最接近(距离最近)的两类合并为一类;再从这N-1类
展开阅读全文