《应用统计学》课件数据挖掘及应用(2014.04.26).ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《应用统计学》课件数据挖掘及应用(2014.04.26).ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 应用统计学 应用 统计学 课件 数据 挖掘 2014.04 26
- 资源描述:
-
1、提 纲一、数据挖掘概述一、数据挖掘概述二、数据挖掘过程及工具二、数据挖掘过程及工具三、数据挖掘应用三、数据挖掘应用 1 1、数据挖掘研究现状、数据挖掘研究现状 2 2、数据挖掘的定义、数据挖掘的定义 3 3、数据挖掘的功能、数据挖掘的功能 1 1、数据挖掘的研究现状、数据挖掘的研究现状q研究现状研究现状:进入进入2121世纪,我国世纪,我国MISMIS应用已产生大量数据,应用已产生大量数据,数据挖掘应用成为信息化未来的数据挖掘应用成为信息化未来的“亮点亮点”;数据挖掘算法研究,这部分主要集中在高校,数据挖掘算法研究,这部分主要集中在高校,研究各种算法及其改进,缺少企业实际数据;研究各种算法及其
2、改进,缺少企业实际数据;数据挖掘应用,当前主要集中在行业应用,通数据挖掘应用,当前主要集中在行业应用,通过各种算法解决高层管理问题,有很多企业拥过各种算法解决高层管理问题,有很多企业拥有大量实际数据,但是数据挖掘能力有限。有大量实际数据,但是数据挖掘能力有限。q应用现状:应用现状:理论性应用;理论性应用;随机应用多,系统应用少随机应用多,系统应用少依赖国外大型工具,性价比低;依赖国外大型工具,性价比低;认识不足,认为数据挖掘是技术人员的事务,实认识不足,认为数据挖掘是技术人员的事务,实际数据挖掘是属于业务应用范畴;际数据挖掘是属于业务应用范畴;算法驱动应用多,业务驱动应用少算法驱动应用多,业务
3、驱动应用少 2 2、数据挖掘的定义、数据挖掘的定义 数据挖掘(数据挖掘(Data MiningData Mining)就是从)就是从大量大量的的、不完全的、有噪声的、模糊的、随机、不完全的、有噪声的、模糊的、随机的数据中,提取的数据中,提取隐含隐含在其中的、人们在其中的、人们事先事先不知道的、不知道的、但又是但又是潜在有用并能被理解潜在有用并能被理解的的信息和知识的信息和知识的过程过程。v概念关注点:概念关注点:(1 1)数据挖掘其实是一类深层次的数据分析方)数据挖掘其实是一类深层次的数据分析方 法。法。(2 2)基于技术的发展和数据的积累)基于技术的发展和数据的积累 (3 3)应用领域,更主
4、要是为商业决策提供真正)应用领域,更主要是为商业决策提供真正 有价值的信息,进而获得利润。有价值的信息,进而获得利润。(4 4)获得有利于商业运作、提高竞争力的信息。)获得有利于商业运作、提高竞争力的信息。就像从矿石中淘金一样,数据挖掘也因此就像从矿石中淘金一样,数据挖掘也因此 而得名。而得名。数据挖掘与传统的数据分析数据挖掘与传统的数据分析(如查询、如查询、报表、联机应用分析报表、联机应用分析)的区别:的区别:数据挖掘是在没有明确假设的前提下数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。去挖掘信息、发现知识。数据挖掘所得到的信息往往是预先未数据挖掘所得到的信息往往是预先未曾预料到的曾
5、预料到的,即数据挖掘是要发现那些不能即数据挖掘是要发现那些不能靠直觉发现的信息或知识靠直觉发现的信息或知识,甚至是违背直觉甚至是违背直觉的信息或知识的信息或知识,挖掘出的信息越是出乎意料挖掘出的信息越是出乎意料,就可能越有价值。就可能越有价值。在商业应用中最典型的例子是尿布和在商业应用中最典型的例子是尿布和啤酒的案例啤酒的案例v数据挖掘与数据仓库关系:数据挖掘与数据仓库关系:(1 1)数据挖掘也不必非得建立一个数据)数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。仓库,数据仓库不是必需的。(2 2)大部分情况下,数据挖掘都要先把)大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖
6、掘库或数据集数据从数据仓库中拿到数据挖掘库或数据集市中。市中。v数据挖掘和在线分析处理(数据挖掘和在线分析处理(OLAPOLAP)OLAPOLAP是决策支持领域的一部分。是决策支持领域的一部分。OLAPOLAP需要建立一系列的假设,然后通过需要建立一系列的假设,然后通过OLAPOLAP来证实或推翻这些假设来最终得到自己来证实或推翻这些假设来最终得到自己的结论。的结论。OLAPOLAP分析过程在本质上是一个演绎分析过程在本质上是一个演绎推理的过程。推理的过程。数据挖掘不是用于验证某个假定的模式数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻(模型)的正确性,而是在数据库中
7、自己寻找模型。他在本质上是一个归纳的过程。找模型。他在本质上是一个归纳的过程。3 3、数据挖掘的功能、数据挖掘的功能(七个方面七个方面)q关联分析关联分析:指两个或多个变量之间存在着某种规律性指两个或多个变量之间存在着某种规律性;目的是找出数据中隐藏的关联网。目的是找出数据中隐藏的关联网。q分类概念描述分类概念描述:对某类对象的内涵进行描述对某类对象的内涵进行描述;特征性描述特征性描述:描述某类对象的共同特征;描述某类对象的共同特征;区别性描述区别性描述:描述不同类对象特征的区别;描述不同类对象特征的区别;q聚类分析:聚类分析:将数据按本身的相似性聚集在一起,然后对聚集状将数据按本身的相似性聚
8、集在一起,然后对聚集状况进行分析解释况进行分析解释;与分类的区别与分类的区别:分类规则需要预先定义类别和训练分类规则需要预先定义类别和训练样本,而聚类分析直接面向数据源;样本,而聚类分析直接面向数据源;q预测:预测:预测预测:利用历史数据建立模型利用历史数据建立模型,在运用最在运用最新数据作为输入值新数据作为输入值,获得未来变化的趋势,获得未来变化的趋势,或者评估给定样本可能具有的属性值或或者评估给定样本可能具有的属性值或值的范围。值的范围。q趋势分析:趋势分析:从相当长的时间的发展中发现规律和趋势;从相当长的时间的发展中发现规律和趋势;相似于关联分析相似于关联分析,但注重数据间的前后因果关系
9、。但注重数据间的前后因果关系。q孤立点分析孤立点分析(孤立点挖掘孤立点挖掘):指对数据库中包含的一些与数据的一般行为或指对数据库中包含的一些与数据的一般行为或模型不一致的数据进行分析;模型不一致的数据进行分析;通常将孤立点设为噪声或异常丢弃,而对某些通常将孤立点设为噪声或异常丢弃,而对某些应用该点数据可能更有价值,如欺骗检测;应用该点数据可能更有价值,如欺骗检测;q偏差分析偏差分析(比较分析比较分析):对差异和极端特例的描述,用于揭示事物偏离对差异和极端特例的描述,用于揭示事物偏离常规的异常现象;常规的异常现象;寻找观测结果与参照值之间有意义的差别。寻找观测结果与参照值之间有意义的差别。一、数
10、据挖掘流程:一、数据挖掘流程:CRISP-DMCRISP-DM 2 2、DMDM工具介绍工具介绍 1 1、数据挖掘流程:、数据挖掘流程:CRISP-DMCRISP-DM二、数据挖掘过程及工具二、数据挖掘过程及工具1 1、数据挖掘标准流程简介、数据挖掘标准流程简介qCRISP-DM(CRISP-DM(跨行业数据挖掘标准流程跨行业数据挖掘标准流程););强调实施数据挖掘项目的方法和步骤强调实施数据挖掘项目的方法和步骤;将数据挖掘过程分为六个阶段,即业务理解、数据将数据挖掘过程分为六个阶段,即业务理解、数据理解、数据准备、建立模型、模型评估、结果发布;理解、数据准备、建立模型、模型评估、结果发布;这
11、些阶段间的顺序并不严格,阶段间有循环,一般这些阶段间的顺序并不严格,阶段间有循环,一般项目的总体实施都是按阶段循环进行的。项目的总体实施都是按阶段循环进行的。q CRISPCRISPDMDM是是CRoss-Industry Standard CRoss-Industry Standard ProcessProcessData MiningData Mining的缩写的缩写;q由由SPSSSPSS、NCRNCR、Daimler-BenzDaimler-Benz在在9696年制定年制定;q CRISP CRISP是当今数据挖掘业界通用流行的标是当今数据挖掘业界通用流行的标准之一准之一;q强调数据挖
12、掘在商业中的应用,解决商业强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在中存在的问题,而不是把数据挖掘局限在研究领域。研究领域。qCRISPCRISPDMDM 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布商业理解(商业理解(Business Understanding)Business Understanding)找问题确定商业目标找问题确定商业目标 对现有资源的评估对现有资源的评估 确定问题是否能够通过数据挖掘来解决确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标确定数据挖掘的目标 制定数据挖掘计划
13、制定数据挖掘计划数据理解数据理解(Data Understanding)(Data Understanding)确定数据挖掘所需要的数据确定数据挖掘所需要的数据 对数据进行描述对数据进行描述 数据的初步探索数据的初步探索 检查数据的质量检查数据的质量数据准备数据准备(Data Preparation)(Data Preparation)选择数据选择数据 清理数据清理数据 对数据进行重建对数据进行重建 调整数据格式使之适合建模调整数据格式使之适合建模建立模型(建立模型(Modeling)Modeling)对各个模型进行评价对各个模型进行评价;选择数据挖掘模型选择数据挖掘模型;建立模型建立模型;模
14、型评估模型评估(Evaluation)(Evaluation)评估数据挖掘的结果评估数据挖掘的结果;对整个数据挖掘过程的前面步骤进行评估对整个数据挖掘过程的前面步骤进行评估;确定下一步怎么办?是发布模型?还是对数据确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型挖掘过程进行进一步的调整,产生新的模型;模型发布(模型发布(DeploymentDeployment)把数据挖掘模型的结果送到相应的管把数据挖掘模型的结果送到相应的管理人员手中理人员手中;对模型进行日常的监测和维护对模型进行日常的监测和维护;定期更新数据挖掘模型。定期更新数据挖掘模型。数据挖掘在营销中的应用
展开阅读全文