大数据管理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据管理课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据管理 课件
- 资源描述:
-
1、第第3 3章章 大数据管理大数据管理本章内容本章内容 3.1 3.1 大数据的清洗3.1.1 3.1.1 数据质量3.1.2 3.1.2 数据清洗的作用3.1.3 3.1.3 数据清洗的方法和过程3.1.4 3.1.4 数据清洗实例 3.2 3.2 数据类型和数据转换3.2.1 3.2.1 数据类型3.2.2 3.2.2 数据转换数据转换 3.3 3.3 大数据的提取和加载实验3 数据处理3.1 3.1 大大数据数据的清洗的清洗 大数据时代下,管理的关键依靠着数据,但随着信息量的不断增长、智慧工具的不断涌现,如何对数据进行有效清洗实现数据的真实性,有效性,唯一性变得十分具有挑战。为了使数据的记
2、录更准确、一致,消除重复和异常记录就变得很重要,所以数据预处理工作是相当必要的。数据清洗作为数据预处理的一个重要环节,在大数据分析过程中占据重要位置。 3.1.1 3.1.1 数据质量数据质量 1.数据质量的四大要素 在技术发展的不同阶段,对数据质量有不同的定义和标准。早期对数据质量的评价标准主要以数据准确性为出发点,随着信息系统功能和定位的不断延伸,用户关心的重点逐步由数据准确性扩展至合法性、一致性等方面。归纳起来,数据质量具有四大要素: 完整性 一致性 准确性 及时性2. 数据质量管理的关键 制订规范的数据质量度量标准建立有效的数据质量监管体系建立完善的数据质量管理制度 3.1.2 3.1
3、.2 数据数据清洗的作用清洗的作用 数据清洗就是按照一定的规则把“脏数据”“洗掉”,过滤不符合要求的数据,主要包括不完整的数据、错误的数据、重复的数据,然后将过滤的结果交给业务主管部门,确认是否过滤掉还是修正之后再进行提取。因此如何对数据进行有效的清理和转换,使之成为符合数据分析要求的数据源,是影响数据分析准确性的关键因素。3.1.3 3.1.3 数据数据清洗的方法和过程清洗的方法和过程1. 数据清洗的方法 通过人工检查 通过专门编写的应用程序 针对特定应用领域的数据清理 针对与特定应用领域无关的数据清理3.1.3 3.1.3 数据数据清洗的方法和过程清洗的方法和过程2. 数据清洗的过程第一阶
展开阅读全文