数据挖掘基本概念与应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘基本概念与应用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 基本概念 应用 课件
- 资源描述:
-
1、报告内容n 数据挖掘的基本概念数据挖掘的基本概念n 数据挖掘与统计分析数据挖掘与统计分析n 数据挖掘的基本算法数据挖掘的基本算法n 数据挖掘实施方法论数据挖掘实施方法论n 总结与讨论总结与讨论n 数据挖掘的基本概念数据挖掘的基本概念改变未来世界的十大新兴技术n Technology Review(麻省理工学院(麻省理工学院2002年年1月出刊)月出刊) 机器与人脑的接口机器与人脑的接口 塑胶晶体管塑胶晶体管 数据挖掘(数据挖掘(Data Mining) 数字权利管理数字权利管理 生物测定学(生物测定学(Biometrics) 语言识别处理语言识别处理 微光学技术(微光学技术(Microphot
2、onics) 解开程序代码(解开程序代码(Untangling Code) 机器人设计机器人设计 微应用流体学(微应用流体学(Microfluidics)什么是数据挖掘?DataInformationKnowledgeWisdomn 存在太多数据挖掘的定义,但基本上有这样一种描述结构存在太多数据挖掘的定义,但基本上有这样一种描述结构To find / discover / extract / dredge / harvest 、Interesting / novel / useful / implicit / actable / meaningful 、Information / knowle
3、dge / patterns / trends / rules / anomalies 、In massive data / large data set / large database / data warehouse 、Data + contextInformation + rulesKnowledge + experience为什么会出现数据挖掘?n 数据爆炸性增长是数据挖掘技术应运而生的根本原因。数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(只见树木,不见森林(Drowning in data but starving for information)计算复杂度
4、计算复杂度数据管理问题数据管理问题数据类型的多样性数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?其他数据分析方法:统计学n 从处理数据的角度看、从处理数据的角度看、数据规模不同数据规模不同数据来源不同:观测数据(数据来源不同:观测数据(Secondary Analysis) VS 试验数据(试验数据(Primary Analysis)数据类型不同(结构化数据、半结构化数据、非结构化数据)数据类型不同(结构化数据、半结构化数据、非结构化数据)n 从分析思想的角度看从分析思想的角度看更关注实证性分析(更关注实证性分析(Empirical Analysis)而非探索
5、性分析()而非探索性分析(Exploratory Analysis)更关注模型(更关注模型(Model)而非算法()而非算法(Algorithm)n 但二者具有相当密切的联系但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析 !数据挖掘:多学科的汇合数据挖掘数据库技术统计学其它学科信息科学机器学习可视化人工智能科学计算数据挖掘是一个过程- “from data
6、mining to knowledge discovery in database”. U. fayyad, G.P.Shapiro and P.Smyth (1996)数据挖掘过程中的数据预处理n 数据清洗数据清洗填充缺失值填充缺失值, , 修均噪声数据修均噪声数据, , 识别或删除孤立点识别或删除孤立点, , 并解决数据不一致问题并解决数据不一致问题主要分析方法:分箱(主要分析方法:分箱(BinningBinning)、聚类、回归)、聚类、回归n 数据集成数据集成多个数据库、数据方或文件的集成多个数据库、数据方或文件的集成n 数据变换数据变换规范化与汇总规范化与汇总n 数据简化数据简化减少
7、数据量的同时减少数据量的同时, , 还可以得到相同或相近的分析结果还可以得到相同或相近的分析结果主要分析方法:抽样、主成分分析主要分析方法:抽样、主成分分析n 数据离散化数据离散化数据简化的一部分数据简化的一部分, , 但非常重要但非常重要 ( (尤其对于数值型数据来说尤其对于数值型数据来说) )数据挖掘过程中的数据探索n 探索性数据分析(探索性数据分析(Exploratory Data Analysis, EDAExploratory Data Analysis, EDA)探索性地查看数据,概括数据集的结构和关系探索性地查看数据,概括数据集的结构和关系对数据集没有各种严格假定对数据集没有各种
8、严格假定“玩玩”数据数据n 主要任务主要任务数据可视化(数据可视化(a picture is worth a thousand wordsa picture is worth a thousand words)残差分析(数据拟合残差分析(数据拟合 + + 残差)残差)数据的重新表达(什么样的尺度对数抑或平方根会简化分析?)数据的重新表达(什么样的尺度对数抑或平方根会简化分析?)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)方法的耐抗性(对数据局部不良的不敏感性,如中位数耐抗甚于均值)n 常见方法常见方法统计量,如均值、方差、根方差、协方差、峰度、偏度、相关系数等统计量,如均值、
9、方差、根方差、协方差、峰度、偏度、相关系数等统计图,如饼图、直方图、散点图、箱尾图等统计图,如饼图、直方图、散点图、箱尾图等模型,如聚类模型,如聚类什么不是数据挖掘?n 定量分析(定量分析(Quantitative Analysis)的需要存在企业管理运行的各个侧)的需要存在企业管理运行的各个侧面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的面或环节,但并非所有的定量分析问题都可以归结到数据挖掘范畴的问题。问题。 简单的报表、图表及多维分析仍是日常分析工作的主要内容简单的报表、图表及多维分析仍是日常分析工作的主要内容 小样本数据的分析传统统计分析方法更成熟有效,如趋势预测小样本数据
10、的分析传统统计分析方法更成熟有效,如趋势预测 某些特定业务问题无法用数据挖掘算法加以解决,例如某些特定业务问题无法用数据挖掘算法加以解决,例如资源最优配置问题是个运筹学问题资源最优配置问题是个运筹学问题某些物流管理问题或者供应链管理问题是个随机规划问题某些物流管理问题或者供应链管理问题是个随机规划问题营销预演本质是个系统仿真问题营销预演本质是个系统仿真问题报告内容n 数据挖掘的基本概念数据挖掘的基本概念n 数据挖掘与统计分析数据挖掘与统计分析n 数据挖掘的基本算法数据挖掘的基本算法n 数据挖掘实施方法论数据挖掘实施方法论n 总结与讨论总结与讨论n 数据挖掘与统计分析数据挖掘与统计分析统计学与数
11、据挖掘的联系n 从处理数据数据挖掘中采用了大量统计学的思想、方法和工具从处理数据数据挖掘中采用了大量统计学的思想、方法和工具 聚类分析(无监督学习过程,统计分析中的主要技术)聚类分析(无监督学习过程,统计分析中的主要技术)K-MeansSelf Organizing Map (SOM) 数据分类(有监督学习过程)数据分类(有监督学习过程)统计分类技术:距离判别,费雪判别,贝叶斯判别统计分类技术:距离判别,费雪判别,贝叶斯判别数据挖掘中的分类技术数据挖掘中的分类技术 :决策树,神经网络:决策树,神经网络 其他方法其他方法相关分析相关分析主成分分析主成分分析回归分析回归分析序列分析序列分析统计学与
12、数据挖掘的区别n 数据数据样本数量不同(在统计学中样本数量大于样本数量不同(在统计学中样本数量大于30,则成为大样本),则成为大样本)数据来源和质量不同数据来源和质量不同数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据数据挖掘既可以处理结构化数据,也可以处理非结构化和异型数据n 方法方法数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适数据挖掘的前提是占有大量数据,统计中的实验设计、抽样设计并不适用用有些数据挖掘的分析方法是统计学中没有的,如强调实时分析有些数据挖掘的分析方法是统计学中没有的,如强调实时分析统计分析方法在对大规模数据处理时占用系统的资源和时间太多,不适统计
13、分析方法在对大规模数据处理时占用系统的资源和时间太多,不适宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法宜采用,因此数据挖掘大量采用神经网络、遗传算法等人工智能方法n 模型(模式)模型(模式)模型(统计学)模型(统计学) VS 模式(数据挖掘)模式(数据挖掘)统计建模强调模型的普适性,数据挖掘强调从数据中发现模式统计建模强调模型的普适性,数据挖掘强调从数据中发现模式n 算法算法统计学强调模型,运算量居于次要地位统计学强调模型,运算量居于次要地位数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算数据挖掘的精华在于结果的未知性,强调探索性分析,与之对应的是算法而不是模型法
14、而不是模型n 方法论方法论统计学:以数学为基础,每种方法有严格的证明体系统计学:以数学为基础,每种方法有严格的证明体系数据挖掘:采用实验方法,不具有很强的严谨性数据挖掘:采用实验方法,不具有很强的严谨性数据挖掘相对于统计学的特点n 使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据使用数据挖掘工具无须具备太专业的统计知识,处理大量的实际数据更有优势,使得数据挖掘人员可以集中精力在业务建模方面更有优势,使得数据挖掘人员可以集中精力在业务建模方面n 数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,数据挖掘从大型数据库提取所需数据,利用专属计算机软件进行分析,更能满足企业的需
15、求更能满足企业的需求 n 从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的从理论的角度来看,数据挖掘与统计学不同,其目的在于方便企业的末端使用者应用,而非为统计学家提供检验工具末端使用者应用,而非为统计学家提供检验工具 报告内容n 数据挖掘的基本概念数据挖掘的基本概念n 数据挖掘与统计分析数据挖掘与统计分析n 数据挖掘的基本算法数据挖掘的基本算法n 数据挖掘实施方法论数据挖掘实施方法论n 总结与讨论总结与讨论n 数据挖掘的基本算法数据挖掘的基本算法几个基本概念n 模型(模型(Model) vs 模式(模式(Pattern)数据挖掘的根本目的就是把样本数据中隐含的结构泛化(数据挖掘的
16、根本目的就是把样本数据中隐含的结构泛化(Generalize)到总体)到总体(Population)上去)上去模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的模型:对数据集的一种全局性的整体特征的描述或概括,适用于数据空间中的所有点,例如聚类分析所有点,例如聚类分析模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一模式:对数据集的一种局部性的有限特征的描述或概括,适用于数据空间的一个子集,例如关联分析个子集,例如关联分析n 算法(算法(Algorithm):一个定义完备():一个定义完备(well-defined)的过程,它以数据作为)的过程,它以数据作为
17、输入并产生模型或模式形式的输出输入并产生模型或模式形式的输出n 描述型挖掘(描述型挖掘(Descriptive) vs 预测型挖掘(预测型挖掘(Predictive)描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征描述型挖掘:对数据进行概括,以方便的形式呈现数据的重要特征预测型挖掘:根据观察到的对象特征值来预测它的其他特征值预测型挖掘:根据观察到的对象特征值来预测它的其他特征值描述型挖掘可以是目的,也可以是手段描述型挖掘可以是目的,也可以是手段几类基本的挖掘算法n 关联规则(模式、描述型)关联规则(模式、描述型)发现数据集中的频繁模式发现数据集中的频繁模式例如:例如:buy(x,”d
18、iapers”) buy(x,”beers”) 0.5%, 60%n 分类与预测(模型、预测型)分类与预测(模型、预测型)发现能够区分或预测目标变量(唯一的)的规则或者函数发现能够区分或预测目标变量(唯一的)的规则或者函数分类的目标变量一般是类别型的,而预测则是数量型的,并不必然带有任何时分类的目标变量一般是类别型的,而预测则是数量型的,并不必然带有任何时间延续型的暗示间延续型的暗示例如:股票市值的预测,病人病情的判断例如:股票市值的预测,病人病情的判断n 聚类(模型、描述型)聚类(模型、描述型)对数据分组以形成新类,类标记是未知的对数据分组以形成新类,类标记是未知的例如:市场细分例如:市场细
19、分n 孤立点探测(孤立点探测(Outlier Detection)(模式、预测型)(模式、预测型)分析异常或噪声数据的行为模式分析异常或噪声数据的行为模式例如:欺诈检测例如:欺诈检测广东发展银行信用卡中心的数据挖掘模型 申请评分卡申请评分卡 (分类模型、分类模型、Logistic回归算法回归算法) 计算申请信用卡的人在将来产生坏账的概率计算申请信用卡的人在将来产生坏账的概率 自变量是离散型变量自变量是离散型变量 评分需要进行标准化处理评分需要进行标准化处理 行为评分卡行为评分卡 (分类模型、分类模型、Logistic回归算法回归算法) 包括:拖欠、催收、销售等包括:拖欠、催收、销售等 自变量是
20、连续型变量自变量是连续型变量广东移动数据挖掘项目中的数据挖掘算法 客户流失客户流失 (分类模型、分类模型、Logistic回归算法回归算法) 彩铃彩铃WAP购买倾向预测购买倾向预测 (分类模型、分类模型、Logistic回归算法回归算法) 彩信增量销售预测彩信增量销售预测 (分类模型、分类模型、Logistic回归算法回归算法) 彩铃用户流失预测彩铃用户流失预测 (分类模型、分类模型、Logistic回归算法回归算法) 客户价值增长预测客户价值增长预测 (分类模型、分类模型、Logistic回归算法回归算法) 竞争对手流失预测竞争对手流失预测 (分类模型、分类模型、Logistic回归算法回归
21、算法) 集团客户分群集团客户分群 (聚类模型、聚类模型、K-Means算法算法) 集团客户级别打分集团客户级别打分 (分类模型、分类模型、Logistic回归算法回归算法) 产品关联分析产品关联分析 (关联规则关联规则) 个人客户分群分析个人客户分群分析 (聚类模型、聚类模型、K-Means算法算法) 集团客户流失预警模型集团客户流失预警模型 (AHP方法方法 + Logistic回归算法回归算法) 客户分群客户分群 (聚类模型、聚类模型、K-Means算法算法) 客户流失客户流失 (分类模型、分类模型、Logistic回归算法回归算法) 潜在用户定位潜在用户定位 (分类模型、分类模型、Log
展开阅读全文