数据分析和挖掘课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据分析和挖掘课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 挖掘 课件
- 资源描述:
-
1、2022年5月31日1第18章 数据分析与挖掘 1、决策支持系统 2、数据分析和联机分析处理(OLAP) 3、数据仓库工程 4、数据挖掘2022年5月31日2 数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据2022年5月31日3 苦恼: 淹没在数据中 ; 不能制定合适的决策! 数据n模式模式n趋势趋势n事实事实n关系关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期2022年5
2、月31日41、决策支持系统 数据库应用系统可广义地划分为事务处理系统和决策支持系统 事务处理系统用来记录有关事务的信息的系统 决策支持系统是从事务处理系统存储的细节信息中提取出高层次的信息2022年5月31日52.数据分析和联机分析处理随着数据库技术的发展和应用,数据库存储的数据量从20世纪80年代的兆(M)字节及千兆(G)字节过渡到现在的兆兆(T)字节和千兆兆(P)字节,同时,用户的查询需求也越来越复杂,涉及的已不仅是查询或操纵一张关系表中的一条或几条记录,而且要对多张表中千万条记录的数据进行数据分析和信息综合,关系数据库系统已不能全部满足这一要求。2022年5月31日6什么是OLAP 联机
3、分析处理(Online Analytical Processing) 是共享多维信息的、针对特定问题的联机数据访问和分析的快速软件技术。它通过对信息的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 OLAP=多维数据库?2022年5月31日7OLTP联机事务处理 传统的关系型数据库的主要应用 侧重于日常的商务操作 专门为了实时的数据操作而设计 支持数据的快速插入和修改 提供单个纪录的查询 支持数千个并发用户 2022年5月31日8OLAP 是数据仓库的核心部心, 数据仓库系统的主要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。 提
4、供数据挖掘,发现数据间潜在的联系 从各个不同的视觉察看数据2022年5月31日9 OLTP vs OLAP2022年5月31日10OLAP是多维的(多维数据库有层次概念)“嘿4月份我在北京卖掉了价值十万美元的可乐”维度的层次概念:产品产品类别类别产品名称产品名称地域地域国家国家省省市市时间时间年年季度季度月月日日2022年5月31日11维度和量度2022年5月31日123、数据仓库 数据仓库简介 数据仓库与数据库的区别 如何建设数据仓库2022年5月31日13数据仓库简介 数据仓库(data warehouse)是从多个源中收集一个信息仓储(或归档),在同一个位置用唯一的模式存储。长时间存储单
5、独的统一的数据接口2022年5月31日14数据仓库与数据库的区别 数据仓库是对于大量已经由OLTP形成的数据的一种分析型的数据库,用于处理商业智能、决策支持等重要的决策信息; 数据仓库是在数据库应用到一定程度之后而对历史数据的加工与分析;是处理两种不同用途的工具而已。2022年5月31日15数据仓库的建设(1)2022年5月31日16设计数据仓库 一个数据仓库包括了 一个中央事实表Fact table 多个维表2022年5月31日17数据仓库的星型结构2022年5月31日18数据仓库的建设(2)2022年5月31日19ETL:数据的提取与转换2022年5月31日20数据仓库的建设(3)2022
6、年5月31日21数据仓库的建设(4)2022年5月31日22四、数据挖掘 1、数据挖掘简介 2、数据挖掘系统的特征 3、数据挖掘技术2022年5月31日231、数据挖掘简介 基本知识 数据挖掘与OLAP比较 数据挖掘的流程2022年5月31日24数据挖掘简介1、数据挖掘是怎样的一个过程呢? 从海量数据中,提取隐含在其中的、人们事先不知道的但又可能有用的信息和知识的过程。2、数据挖掘特性? 数据挖掘是从数据中自动地抽取模式、关联、变化、异数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测数据挖掘大部分的价值在于利用
7、数据挖掘技术改善预测模型模型。2022年5月31日25代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数据挖掘作为数据挖掘作为一个独立的应一个独立的应用用支持一个或者支持一个或者多个算法多个算法 独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和数据库以及和数据库以及数据仓库集成数据仓库集成多个算法:能够多个算法:能够挖掘一次不能放挖掘一次不能放进内存的数据进内存的数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质同质/ /局局部区域部区域的计算的计算机群集机群集有些系统支有些系统支持对象、文持对象、文本
8、、和连续本、和连续的媒体数据的媒体数据第三代第三代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构支持半结构化 数 据 和化 数 据 和webweb数据数据第四代第四代和移动数据和移动数据/ /各种计算数各种计算数据联合据联合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普 遍 存 在普 遍 存 在的 计 算 模的 计 算 模型型2022年5月31日26数据挖掘与OLAP比较(1)功能不同 数据挖掘DM的功能在于知识发现。
9、如:数据挖掘DM中的“分类”包括:贝叶斯分类、粗糙集分类、决策树分类等,是从数据中发现知识规则 而联机分析OLAP是一种自上而下、不断深入的分析工具:用户提出问题或假设,OLAP负责从上至下深入地提取出关于该问题的详细信息,并以可视化的方式呈现给用户。 用户先入为主的局限性可能会限制问题和假设的范围,从而影响最终的结论。2022年5月31日27 (2)数据组成不同数据挖是从混沌的、具有巨大噪声的数据中提炼知识规则;而联机分析OLAP只是从已经规范化的、纯净的关系数据库中组织数据。(3)知识与数据的关系不同数据挖掘DM是从数据中发现知识KDD;而联机分析OLAP是利用人已知的知识来有意识地组织和
10、使用数据。2022年5月31日28 知识发现(KD)输出的是规则 数据挖掘(DM)输出的是模型 共同点两种方法输入的都是学习集(learning sets) 目的都是尽可能多的自动化数据挖掘过程 数据挖掘过程并不能完全自动化,只能半自动化 2022年5月31日29SQL Server 2005数据挖掘处理流程2022年5月31日302、 矿山(数据)挖掘工具(算法)金子(知识) 数据的特征 知识的特征 算法的特征2022年5月31日31数据的特征 大容量 POS数据(某个超市每天要处理高达2000万笔交易) 卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据) 互联网数据 含噪音(
11、不完全、不正确) 异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)2022年5月31日32系统的特征 知识发现系统需要一个前处理过程 数据抽取 数据清洗 数据选择 数据转换 知识发现系统是一个自动/半自动过程 知识发现系统要有很好的性能2022年5月31日33知识的特征 知识发现系统能够发现什么知识? 计算学习理论COLT(Computational Learning Theory) 以FOL为基础的以发现关系为目的的归纳逻辑程序设计 现行的知识发现系统只能发现特定模式的知识 规则 分类 关联2022年5月31日34算法的特征 构成数据挖掘算法的三要素 模式记述语言:反映了算
12、法可以发现什么样的知识 模式评价:反映了什么样的模式可以称为知识 模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索2022年5月31日353、数据挖掘技术 技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律 数据挖掘技术 分类 关联规则 聚集 时间序列2022年5月31日36决策树算法 基本介绍 根据数据源,找到决定预测目标的因素的重要关系登记以及程度。 把已知条件自动分解为多个离散的类别 初始状态是一个大的空间,挖掘的过程是递归分 区不断分割。2022年5月31日37案例 我们有大量的客户 年龄在20-60岁 月薪在
13、08000元55%的被我们认可为好客户里边潜在的规律是什么?2022年5月31日38谁是我们的有价值客户呢?2022年5月31日39谁是我们的有价值客户呢?2022年5月31日40谁是我们的有价值客户呢?2022年5月31日41决策树算法典型应用 一个或多个变量预测目标,变量对目标的重要程序。 预测客户是否会购买某种产品,预测潜在客户。 评估客户风险 找到决策规则2022年5月31日42关联规则算法 基本介绍 分析发现数据库中不同变量或个体间之间的关系程度,用这些规则找出顾客购买行为模式。 关联规则算法可以处理异常大的目录,经过了包含超过五千万种商品的目录的测试。2022年5月31日43关联规
14、则算法典型应用 购物篮物品关联度 货品摆放 捆绑销售 网站内容关联 个性化促销 网上书店关联销售 2022年5月31日44聚类算法 基本介绍 将相似的事物归类 最大期望方法 K-Means2022年5月31日45聚类算法 典型应用 分类和预测、客户价值度分析 典型问题 寻找有价值客户群体 寻找欺诈群体2022年5月31日46 2022年5月31日47 分类: 预测项目所属类 根据已有训练数据集和所属类,构建模型来分类现有数据,并用来分类新数据 预测: 是构造和使用模型评估无样本类,或评估给定样本可能具有的属性或值空间。 建立连续函数值模型,比如预测空缺值2022年5月31日48预测和分类的异同
15、 相同点 两者都需要构建模型 都用模型来估计未知值预测当中主要的估计方法是回归分析线性回归和多元回归非线性回归 不同点 分类法主要是用来预测类标号(分类属性值) 预测法主要是用来估计连续值(量化属性值)2022年5月31日49训练数据集NAME RANKYEARS TENUREDMikeAssistant Prof3noMaryAssistant Prof7yesBill Professor2yesJimAssociate Prof7yesDaveAssistant Prof6noAnneAssociate Prof3no分类算法IF rank = professorOR years 6THE
16、N tenured = yes 分类规则2022年5月31日50分类规则测试集NAMERANKYEARS TENUREDTomAssistant Prof2noMerlisa Associate Prof7noGeorge Professor5yesJoseph Assistant Prof7yes未知数据(Jeff, Professor, 4)Tenured?注:测试集要独立于训练样本集,否则会出现“过分适应数据”的情况2022年5月31日51 通过对数据进行预处理,可以提高分类和预测过程的准确性、有效性和可伸缩性 数据清理 消除或减少噪声,处理空缺值。 相关性分析 数据中的有些属性可能与当
展开阅读全文