《数据清洗:概论》课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《数据清洗:概论》课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据清洗:概论 数据 清洗 概论 课件
- 资源描述:
-
1、第一章概论1.1 数据清洗概述1.2 数据标准化1.3 数据仓库习题1.1数据清洗概述1.1.1 数据科学过程 数据科学则是一门新兴的以数据为研究中心的学科。作为一门学科,数据科学以数据的广泛性和多样性为基础,探寻数据研究的共性。数据科学是一门关于数据的工程,它需要同时具备理论基础和工程经验,需要掌握各种工具的用法。数据科学主要包括两个方面:用数据的方法来研究科学和用科学的方法来研究数据。数据清洗是数据科学家完成数据分析和处理任务过程中必须面对的重要一环。具体来说,数据科学的一般处理过程包括如下几个步骤:u 问题陈述,明确需要解决的问题和任务。u 数据收集与存储,通过多种手段采集和存放来自众多
2、数据源的数据。u 数据清洗,对数据进行针对性地整理和规范以便于后面的分析和处理。u 数据分析和挖掘,运用特定模型和算法来寻求数据中隐含的知识和规律。u 数据呈现和可视化,以恰当的方式程序数据分析和挖掘的结果。u 科学决策:根据数据分析和处理结果来决定问题的解决方案。1.1.2 数据清洗定义 来自多样化数据源的数据内容并不完美,存在着许多“脏数据”,即数据不完整有缺失、存在错误和重复的数据,数据的不一致和冲突等缺陷。数据清洗(Data Cleaning/Cleansing)对数据进行审查和校验,发现不准确、不完整或不合理数据,进而删除重复信息、纠正存在的错误,并保持数据的一致性、精确性、完整性和
3、有效性以提高数据的质量。数据清洗并没有统一的定义,其定义依赖于具体的应用领域。从广义上讲,数据清洗是将原始数据进行精简以去除冗余和消除不一致,并使剩余的数据转换成可接收的标准格式的过程;而狭义上的数据清洗特指在构建数据仓库和实现数据挖掘前对数据源进行处理,使数据实现准确性、完整性、一致性、唯一性和有效性以适应后续操作的过程。一般而言,凡是有助于提高信息系统数据质量的处理过程,都可认为是数据清洗。1.1数据清洗概述1.1.3 数据清洗任务 数据清洗就是对原始数据进行重新审查和校验的过程,目的在于删除重复信息、纠正存在的错误,并使得数据保持精确性、完整性、一致性、有效性及唯一性,还可能涉及数据的分
4、解和重组,最终将原始数据转换为满足数据质量或应用要求的数据。数据清洗对保持数据的一致和更新起着重要的作用,因此被用于如银行、保险、零售、电信和交通的多个行业3。数据清洗主要有三个应用领域:数据仓库(Data Warehouse,DW)、数据库中知识的发现(Knowledge Discovery in Database,KDD)和数据质量管理(Data Quality Management,DQM)。数据清洗对随后的数据分析非常重要,因为它能提高数据分析的准确性。但是数据清洗依赖复杂的关系模型,会带来额外的计算和延迟开销,必须在数据清洗模型的复杂性和分析结果的准确性之间进行平衡。1.1数据清洗概
5、述1.1.4 数据清洗流程 数据清洗通过分析“脏数据”的产生原因和存在形式,利用数据溯源的思想,从“脏数据”产生的源头开始分析数据,对数据流经环节进行考察,提取数据清洗的规则和策略,对原始数据集应用数据清洗规则和策略来发现“脏数据”并通过特定的清洗算法来清洗“脏数据”,从而得到满足预期要求的数据。具体而言,数据清洗流程包含以下基本步骤:1.1数据清洗概述1分析数据并定义清洗规则 2搜寻并标识错误实例3纠正发现的错误4干净数据回流5数据清洗的评判u数据清洗是一项十分繁重的工作,数据清洗在提高数据质量的同时要付出一定的代价,包括投入的时间、人力和物力成本。通常情况下,大数据集的数据清洗是一个系统性
6、的工作,需要多方配合以及大量人员的参与,需要多种资源的支持。1.1.5 数据清洗环境1.1数据清洗概述 数据清洗环境是指为进行数据清洗所提供的基本硬件设备和软件系统,特别是已得到广泛应用的开源软件和工具。u 终端窗口和命令行界面,比如Mac OS X上的Terminal程序或Linux上的bash程序。u 适合程序员使用的编辑器,如Mac上的Text Wrangler,Linux上的vi或emacs,或是Windows上的Notepad+、Sublime编辑器等。u Python客户端程序,如Enthought Canopy。另外,还需要足够的权限来安装一些程序包文件。u 电子表格程序,如Mi
7、crosoft Excel和Google Spreadsheets。数据呈现和可视化,以恰当的方式程序数据分析和挖掘的结果。u 数据库软件,如MySQL数据库和Microsoft Access。1.1.6 数据清洗实例说明1.1数据清洗概述 以网站文件下载为例,假定一组记录文件下载时间长度的原始数据集如表1-1所示。直接计算网站文件平均下载时长,计算结果约为23000秒,约6小时,与实际情况严重不符,说明这一数据集受到了显著的噪声的影响而导致部分数据值出现严重偏差。为此,必须对原始数据集做异常值识别并尽可能剔除错误数据。表1-1 各个文件的下载时间1.1.6 数据清洗实例说明1.1数据清洗概述
8、 具体来说,可以基于数据的分布特征利用分箱法或聚类法来识别上例数据集中的噪声数据。对于表1中的数据,清洗数据时首先将数据集等分为2403个区间,找到数据的集中域0,3266。然后,利用分箱法对取值在0,3266之间的数据作进一步分析,对新数据组剔除离群值,得到清洗后的离群数据组。最后,统计计算清洗后的目标数据源的平均下载时长为192.93秒,约3.22分钟,符合网站文件下载的实际情况。从这个简单的例子可看出,基于数据的分布特征,数据清洗可以采用分箱法或聚类方法较为快捷地识别和剔除数据集中的噪声数据,从而获得良好的清洗效果。图1 基于聚类的孤立点识别大数据应用人才培养系列教材第一章概论1.1 数
9、据清洗概述1.2 数据标准化1.3 数据仓库习题1.2.1 数据标准化概念 数据标准化/规范化(Data Standardization/Normalization)是机构或组织对数据的定义、组织、分类、记录、编码、监督和保护进行标准化的过程,有利于数据的共享和管理,可以节省费用,提高数据使用效率和可用性。数据标准化处理主要包括数据同趋化处理和无量纲化处理两个方面。数据同趋化处理主要解决不同性质数据问题,对不同性质指标直接加总不能正确反映不同作用力的综合结果,必须先考虑改变逆指标数据性质,使所有指标对测评方案的作用力同趋化,然后再加总才能得出正确结果。数据无量纲化处理主要用于消除变量间的量纲关
展开阅读全文