《大数据分析实务》课件第1章:数据仓库与数据挖掘概述.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据分析实务》课件第1章:数据仓库与数据挖掘概述.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据分析实务 数据 分析 实务 课件 数据仓库 挖掘 概述
- 资源描述:
-
1、第第1章章 数据仓库与数据挖掘概述数据仓库与数据挖掘概述第一章 数据仓库与数据挖掘概述1.1数据库与数据仓库1.2数据分析与数据挖掘1.3商务智能1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 39摄氏度摄氏度体温体温1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 石家庄2021年7月1日气温39摄氏度石家庄(1971年-2021年)7月平均气温39摄氏度1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 知识知识信息信息数据数据数据是信息的载体,数据是信息的载体,信息是数据的内涵信息是数据的内涵客观事物的数量、属
2、客观事物的数量、属性、位置及其相互关性、位置及其相互关系进行抽象表示系进行抽象表示反应了客观世界的规反应了客观世界的规律性,与决策相关律性,与决策相关1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 清明时节雨纷纷清明时节雨纷纷立夏耕田立夏耕田 小满灌水小满灌水 芒种看果芒种看果 夏至看禾夏至看禾 小暑谷熟小暑谷熟 大暑忙收大暑忙收1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 石家庄哪种病的死亡率石家庄哪种病的死亡率最高?最高?1.1数据库与数据仓库数据库与数据仓库1.1.1 数据的层次性数据的层次性 1.1数据库与数据仓库数据库与数据仓
3、库1.1.2数据仓库出现的原因数据仓库出现的原因 数据库存在的问题数据量增长迅速,处理复杂问题的性能下降明显存在信息孤岛现象,异构环境的数据转换和共享困难数据主要面向事务处理,缺少对决策和数据分析的支撑1.1数据库与数据仓库数据库与数据仓库1.1.2数据仓库出现的原因数据仓库出现的原因 传统数据库在当前数据量增长迅速、经营管理中决策支持、数据分析要求越来越高的背景下,越来越力不从心,无法担当作为大规模数据综合分析平台的重任,管理决策任务需要有一种新的理论、技术和工具来提供支持,这就是数据仓库。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据仓库是面向主题的、
4、集成的、随时间变化的、非易失的数据集合,用于支持管理层的决策过程。是一种为信息分析提供了良好的基础并支持管理决策活动的分析环境,是面向主题的、集成的、稳定的、不可更新的、随时间变化的、分层次的多维的集成数据集合1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 面向主题:数据仓库以支持管理层的决策为目的,围绕着某些具体的分析主题而组织数据组合起来,共同形成对该对象的较为完整、一致、准确的描述,这一被描述的对象就是“主题”确定了主题之后,就应对业务数据库的内容加以组织归类。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据集成性:数据
5、仓库中数据的集成性,是指在构建数据仓库的过程中,多个外部数据源内格式不同、定义各异的数据,按既定的策略经过抽取、清洗、转换等一系列处理,最终构成一个有机的整体。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据集成性:数据仓库从业务数据库中获取数据后,并不直接将其导入,而是进行一系列的预处理工作,即对数据进行筛选、清洗和转换、综合等工作(ETL),以解决数据中存在的问题。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据非易失性:数据按照业务要求在操作型数据库系统产生、更新、删除和查询。但是数据仓库则体现出一种不同数据的特性。
6、数据被装载(load)到数据仓库后,被打上一个时间戳。数据仓库中的这个数据代表了在某一时刻业务数据库中对应数据项的描述,可以称之为数据快照。虽然随着时间的流逝,在实际业务中这个数据字段可能早已发生变化,但是在数据仓库中,该数据仍代表在这个时间戳时刻,该数据项的值,不会随着后续装载进来的新数据而发生变化。1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 数据随时间变化:数据的时变性,是指数据仓库的内容随时间的变化而不断得到增补、更新。正如上面谈到非易失性时说的,数据仓库对导入其中的数据给定一个时间戳,使之成为一个描述特定时刻特征的数据快照。数据时变性的实质,就是指数
7、据仓库中的数据能利用快照数据,形成历史数据的轨迹,描述业务随时间变化的情况1.1数据库与数据仓库数据库与数据仓库1.1.3 数据仓库的概念数据仓库的概念 事务处理环境不适于决策支持应用:要提高分析和决策的效率和有效性,就必须把分析型数据从事务处理环境中提取出来,按照决策支持处理的需要进行重新组织,建立单独的分析处理环境。也就是说,分析型处理及其数据必须与操作型处理及其数据相分离。数据仓库正是为了构建这种新的分析处理环境而出现的一种数据存储和组织技术。1.1数据库与数据仓库数据库与数据仓库1.1.4 数据仓库与数据库的差异数据仓库与数据库的差异 1.1数据库与数据仓库数据库与数据仓库1.1.5数
8、据仓库的商业应用数据仓库的商业应用 新一代的商业模式则侧重于客户的需求,以客户为中心,以需求定制产品。有了数据仓库后,企业可以通过大量的、各方各面的数据分析客户是谁,他喜欢什么样的产品和服务,应该如何提供更好的产品和服务给他,并以此创造更多利润。零售业、电信、银行等,在中国邮政如何应用。1.2数据分析与数据挖掘数据分析与数据挖掘1.2.1数据挖掘概念数据挖掘概念 数据挖掘早期在人工智能(Artificial Intelligence,AI)中被称为知识发现(Knowledge Discovery in Database,KDD),指的是从大量数据中寻找未知的、有价值的模式或规律等知识的过程。1
展开阅读全文