《常用数据清洗工具及基本操作》课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《常用数据清洗工具及基本操作》课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 常用数据清洗工具及基本操作 常用 数据 清洗 工具 基本 操作 课件
- 资源描述:
-
1、第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作4.2 Kettle简介及基本操作4.3 OpenRefine简介及基本操作4.5 Hawk简介及基本操作 4.4 DataWrangler简介及基本操作4.6 上机练习与实训习题4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作 4.1.1Excel数据清洗概述Microsoft Excel是微软公司Microsoft Office系列办公软件的重要组件之一,是一个功能强大的电子表格程序,能将整齐而美观的表格呈现给用户,还可以将表格中的数据通过多种形式的图形、图表表现
2、出来,增强表格的表达力和感染力。Microsoft Excel也是一个复杂的数据管理和分析软件,能完成许多复杂的数据运算,帮助使用者做出最优的决策。利用Excel内嵌的各种函数可以方便地实现数据清洗的功能,并且可以借助过滤、排序、作图等工具看出数据的规律。另外,Excel还支持VBA编程,可以实现各种更加复杂的数据运算和清理。作为一款桌面型数据处理软件,Excel主要面向日常办公和中小型数据集的处理,但在面对海量数据的清洗任务时却是难以胜任的,即使是小型数据集在使用前也存在需要规范化的问题,因此,通过在Excel中进行数据清洗的实践操作,有助于帮助读者理解数据清洗的概念和知识,并掌握一定的操作
3、技巧,为后面进行大数据集的清洗打好基础。4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作主要针对与数据清洗密切相关的操作和注意事项做简要介绍1Excel数据清洗相关操作快速定位和快速填充12数据分列3Excel中的数据类型和数据格式第四章 常用数据清洗工具及基本操作存储 存储成本下降4.1 Microsoft Excel数据清洗基本操作 1数据分列在利用Excel进行数据处理过程中,常会遇到1列单元格中的数据是组合型的情况,即粒度过大,如“2017-03-25 Saturday 18:22”,包含日期、星期和时间3个部分,如图4-1所示。需要将之拆分为独
4、立的3列,这时就可以采用分列功能实现,操作步骤为:步骤1:选定要进行分列的数据,然后单击“数据”工具栏,选择“分列”,如图4-2所示。图4-1 组合型数据示例 图4-2 选择“分列”操作第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作步骤2:出现文本分列向导(本向导也可以在选中待分列区域后,按Alt+A+E快捷键快速打开),如图4-3所示,默认选中“分隔符号”,单击“下一步”按钮。图4-3 文本分列向导第1步步骤3:选择分隔符号,本例中为空格,所以选中“空格”复选框,选中后,在数据预览的区域里就会显示按照要求分隔后的格式,如图4-4所示,单击“下一步”按
5、钮。图4-4 文本分列向导第2步第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作步骤4:设置分列后各列的数据格式,根据实际情况而定,这里设为文本格式,选中“文本”单选按钮,如图4-5所示。步骤5:设置分列后,还可设置数据存放的区域,如图4-6所示,单击“完成”按钮。图4-5 文本分列向导第3步图4-6 设置数据存放区域存储 存储成本下降第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作可以看到,数据已被完美地分开,如图4-7所示。图4-7 完成数据分列 第四章 常用数据清洗工具及基本操作4.1 Microsoft E
6、xcel数据清洗基本操作2 快速定位和快速填充在日常的工作中经常会看到一些重复项合并的Excel表格,如月份、地区等,主要是为了方便查看,如图4-8所示A列的销售区。但这样的工作表,没有办法使用数据透视表功能进行统计、汇总和分析等。图4-8 重复项合并示例第八章 清洗RDBMS数据实例 第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作对此,可以使用Excel的“定位”功能来实现快速填充,步骤如下:步骤1:选中A列,单击“合并后居中”按钮,取消单元格合并,结果如图4-9所示。图4-9 取消单元格合并第八章 清洗RDBMS数据实例 第四章 常用数据清洗工具及
7、基本操作4.1 Microsoft Excel数据清洗基本操作步骤2:选中A列,然后依次单击“查找和选择”“定位条件”“空值”按钮(或按Ctrl+G快捷键弹出“定位”对话框后,单击“定位条件”按钮,如图4-10所示)。步骤3:在随后弹出的“定位条件”对话框中选中“空值”单选按钮,然后单击“确定”按钮,如图4-11所示。图4-10 “定位”对话框 图4-11 “定位条件”对话框第八章 清洗RDBMS数据实例 第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作步骤4:在定位的空值单元格中输入“=A3”(根据实际情况输入),如图4-12所示。步骤5:按Ctrl+
8、Enter快捷键完成填充,结果如图4-13所示。图4-12 输入定位条件 图4-13 完成定位填充第四章 常用数据清洗工具及基本操作4.1 Microsoft Excel数据清洗基本操作 3 Excel中的数据类型和数据格式在Excel中,数据类型只有3种,分别是文本型、数字型和逻辑型。所有单元格默认的类型为数字型;当输入内容是以单引号为先导符时为文本型,一般当单元格中的数据为文本型时,单元格的左上角会出现绿色的小三角型标记;逻辑型是指运算结果为TRUE或FALSE的二值型数据。3种类型分别可以用函数istext()、isnumber()和islogical()进行判断。3种数据类型的对应关系
9、如图4-14所示。数据格式是指Excel中各个数据类型的外在表现形式,同一数据类型有多种数据格式,在工具栏上单击“设置单元格格式”按钮(或在单元格中右击,在弹出的快捷菜单中选择选择“设置单元格”命令),出现设置数据格式对话框,如图4-15所示。图4-14 Excel的数据类型图4-15 设置单元格格式4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作关于数据类型和数据格式的关系主要有以下几点:1所有单元格默认的类型为数字型,单元格格式的改变不会改变数据类型本身,但单元格格式会影响新生成数据的类型。2 以文本形式存储的数字,在参与四则运算时会转变成为数字,结
10、果为数字型;在参与函数运算时会忽略不计,但运算结果仍为数字型。以上是Excel数据清洗的常用操作介绍,使用数据分列功能是为了使数据的粒度变小;定位填充功能是为了将原始数据中存在的合并居中现象取消,并实现快速的数据填充,实例中仅使用了定位条件中的“空值”,日常工作中可以根据实际需要,选取其他的条件;正确理解Excel中数据类型和数据格式的区别和联系,有利于在实际的数据操作中避免错误。4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作Excel的函数功能十分强大,同时也非常复杂,其中很多都可以直接用来进行初步的数据清洗操作,本节按照功能介绍10类函数,根据经验
11、,这些函数在实际的数据清洗工作中使用频率较高,应用面也较广,使用这些函数可以让工作事半功倍。2Excel数据清洗常用函数AVERAGE函数12SUM函数3COUNT函数4INT函数和ROUND函数5IF函数67NOW函数和TODAY函数8ISNUMBER函数、ISTEXT函数和ISLOGICAL函数9MAX函数和MIN函数10SUMIF函数和COUNTIF函数HLOOKUP函数和VLOOKUP函数154.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作SUM函数用来承担数学的加法运算,其参数可以是单个数字或一组数字,因此它的加法运算功能十分强大。使用一个单元
12、格区域的语法结构:=SUM(A1:A12)使用多个单元格区域的语法结构:=SUM(A1:A12,B1:B12)AVERAGE函数是频繁使用的一个统计函数,用于计算数据集的平均值。其参数可以是数字,或者是单元格区域。使用一个单元格区域的语法结构:=AVERAGE(A1:A12)使用多个单元格区域的语法结构:=AVERAGE(A1:A12,B1:B12)16COUNT函数用于统计含有数字的单元格的个数。注意:COUNT函数不会将数字相加,而只是统计共有多少个数字。COUNT函数的参数可以是单元格、单元格引用或者数字本身。COUNT函数会忽略非数字单元格的值。例如,如果A1:A10是COUNT函数的
13、参数,但是其中只有两个单元格含有数字,那么COUNT函数返回的值是2。使用一个单元格区域的语法结构:=COUNT(A1:A12)使用多个单元格区域的语法结构:=COUNT(A1:A12,B1:B12)4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作1617INT函数和ROUND函数都是将一个数字的小数部分删除,两者的区别在于:INT函数是无条件地将小数部分删除,无须进行四舍五入。该函数只有一个参数,语法结构:=INT(number)需要注意的是,INT函数总是向下舍去小数部分。例如,INT(-5.1)和INT(-5.9)都是等于-6,而不是-5,因为-6
14、才是-5.1和-5.9向下舍入的数字。相反,ROUND函数是将一个数字的小数部分四舍五入。该函数有两个参数:需要计算的数字和需要四舍五入的小数位数,语法结构:=ROUND(number,小数位数)另外还有两个函数ROUNDUP和ROUNDDOWN,可以规定是向上舍入还是向下舍入。ROUNDUP和ROUNDDOWN的语法结构与ROUND相似:=ROUNDUP(number,小数位数)=ROUNDDOWN(number,小数位数)4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作1717184.1 Microsoft Excel数据清洗基本操作第四章 常用数据
15、清洗工具及基本操作1818IF函数的主要用途是执行逻辑判断,根据逻辑表达式的真假,返回不同的结果,从而执行数值或公式的条件检测任务。逻辑判断的结果是返回一个TRUE或FALSE的值,注意这里的TRUE或FALSE不是正确和错误的意思,而是逻辑上的真与假的意思。IF函数的语法结构:=IF(逻辑判断,为TRUE时的结果,为FALSE时的结果)例如,给出的条件是B25C30,如果实际情况是TRUE,那么IF函数就返回第二个参数的值;如果是FALSE,则返回第三个参数的值。IF函数常常用来检查数据的逻辑错误,如使用二分法的多选题录入时,出现了1和0以外的数字,可以通过如下设置,过程如图4-19所示:步
16、骤1:选中数值区域格式条件格式公式。步骤2:输入公式,设置格式。图4-19 数据逻辑错误检查19NOW函数根据计算机现在的系统时间返回相应的日期和时间。TODAY函数则只返回日期。NOW函数和TODAY函数都没有参数。语法结构如下:=NOW()=TODAY()TODAY函数常用来计算过去到“今天”总共有多少天的计算上。例如,项目到今天总共进行多少天了?在一个单元格上输入开始日期,另一个单元格输入公式减去TODAY得到的日期,得出的数字就是项目进行的天数。请注意可能需要更改单元格的格式,才能正确显示所需要的日期和时间格式。4.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗
17、工具及基本操作1919HLOOKUP函数和VLOOKUP函数都可以用来在表格中查找数据。所谓的表格是指用户预先定义的行和列区域。具体来说,HLOOKUP返回的值与需要查找的值在同一列上,而VLOOKUP返回的值与需要查找的值在同一行上。两个函数的语法结构是:=HLOOKUP(查找值,区域,第几行,匹配方式)=VLOOKUP(查找值,区域,第几列,匹配方式)这两个函数的第一个参数是需要查找的值,如果在表格中查找到这个值,则返回一个不同的值。204.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作2020ISNUMBER函数、ISTEXT函数和ISLOGICAL
18、函数这3个函数的功能是判断Excel的数据类型,ISNUMBER函数判断单元格中的值是否是数字,ISTEXT函数判断单元格中的值是否是文本,ISLOGICAL函数判断单元格中的值是TRUE或FALSE,这3个函数的返回值均为TRUE或FALSE。语法结构是:=ISNUMBER(value)=ISTEXT(value)=ISLOGICAL(value)MAX函数和MIN函数是在单元格区域中找到最大和最小的数值。两个函数可以拥有30个参数,参数还可以是单元格区域。两个函数的语法结构是:=MAX(number1,number2,)=MIN(number1,number2,)使用一个单元格区域的语法结
19、构:=MAX(A1:A12)使用多个单元格区域的语法结构:=MAX(A1:A12,B1:B12)SUMIF函数有3个参数,其语法结构:=SUMIF(判断范围,判断要求,汇总的区域)第一个参数可以与第三个参数不同,即实际需要汇总的区域可以不是应用判断要求的区域。第三个参数可以忽略,忽略的情况下,第一个参数应用条件判断的单元格区域就会用来作为需要求和的区域。COUNTIF函数用来计算单元格区域内符合条件的单元格个数。COUNTIF函数只有两个参数,其语法结构:=COUNTIF(单元格区域,计算的条件)如果其中一个单元格的值符合条件,则不管单元格里面的值是多少,返回值是1。利用这一特性可以进行重复数
20、据的处理。例如:对图4-20中的数据进行处理,分别找出重复值和非重复值。214.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作2121SUMIF函数和COUNTIF函数分别根据条件汇总或计算单元格个数,Excel的计算功能因此大大增强。图4-20 寻找重复值和非重复值B1=COUNTIF(A:A,A1)寻找重复值;C1=COUNTIF(A$1:A1,A1)筛选出所有非重复项(筛选出1即可)。221.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作22223Excel数据清洗操作的注意事项 同一份数据清单中避免出现空行和空
21、列;数据清单中的数据尽可能细化,不要使用数据合并;构造单行表头结构的数据清单,不要有两行以上的复杂表头结构;单元格的开头和末尾避免输入空格或其他控制符号;在一个工作表中要避免建立多个数据清单,每个工作表仅使用一个数据清单;当工作表中有多个数据清单时,则数据清单之间应至少留出一个空列和一个空行,以便于检测和选定数据清单;关键数据应置于数据清单的顶部或底部;对原始工作表做好备份,在执行完所有的清洗操作并确认无误后再复制到原始表中。234.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作2323 4.1.2Excel数据清洗现有一个企业招聘职位信息的数据集,约有5
22、000条数据,客户提出需要了解数据分析师岗位情况,包括岗位分布和特点、能力要求、工资和薪酬等。由于数据集没有经过处理,所以表中的数据还很不规范,含有大量数据重复、缺失、单列数据粒度过大等问题,因此,在进行数据分析前,需要进行数据清洗操作,以使数据规范化。下面介绍执行数据清洗的主要过程。244.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作24241数据预览拿到数据后,不要急着动手处理,先对数据集做总体的观察。如图4-21所示,可以看到,数据集表头由城市、公司名称、公司编号、公司福利、公司规模、经营区域、经营范围、教育程度、职位编号、职位名称、薪水和工作年限
23、要求等属性组成。图4-21 招聘信息数据集254.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作2525数据整体较为规整,但通过初步观察,该数据集主要存在如下问题:(1)数据缺失(2)数据不一致(3)存在“脏”数据(4)数据不规范264.1 Microsoft Excel数据清洗基本操作第四章 常用数据清洗工具及基本操作26262进行数据清洗(1)清洗薪水数据(2)分列操作(3)搜索替换不一致第四章 常用数据清洗工具及基本操作4.2 Kettle简介及基本操作4.1 Microsoft Excel数据清洗基本操作4.3 OpenRefine简介及基本操作4
24、.5 Hawk简介及基本操作 4.4 DataWrangler简介及基本操作4.6 上机练习与实训习题大数据应用人才培养系列教材284.2 Kettle简介及基本操作第四章 常用数据清洗工具及基本操作2828大数据技术中,数据清洗的前期过程可简单地认为就是ETL的过程。ETL(Extract-Transform-Load)负责将分散的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层,进行清洗、转换、集成,最后加载到数据仓库或数据集市中,作为联机分析处理、数据挖掘提供决策支持的数据。在整个数据仓库的构建中,ETL工作占整个工作的50%70%,是构建数据仓库的重要一环,用户从数据源抽
25、取所需的数据,经过数据清洗,最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中。本节介绍一款开源的ETL工具Kettle。294.2 Kettle简介及基本操作第四章 常用数据清洗工具及基本操作29294.2.1 Kettle软件概述1Kettle简介Kettle是一款国外的开源ETL工具,也是世界上最流行的开源商务智能软件Pentaho的主要组件之一,中文名称叫水壶,主要用于数据库间的数据迁移,商业名称PDI,纯Java编写,可跨平台运行,主要作者为Matt。2005年12月,Kettle成为开源软件。Kettle使用图形界面进行可视化的ETL过程设置操作,以命令行形式执行,支持非常广
展开阅读全文