数据科学导论课件第四章数据整理案例.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据科学导论课件第四章数据整理案例.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 科学 导论 课件 第四 整理 案例
- 资源描述:
-
1、1数据科学导论 第四章 数据整理和清理案例本章导言 整理及清理数据是任何数据科学家必定会遇到的问题.数据存储格式千差万别,不存在统一的方法.本章通过例子介绍如何进行数据整理和清理.本章处理后的数据可能在后面章节用到.一般的“教科书数据”往往都不需要多少加工就可以直接使用,所以本章可作参考或者自学之用.23主要内容一 GDP 数据案例二 世界卫生组织案例之一三 世界卫生组织案例之二四 数据中的缺失值五 本章的python代码4一 GDP 数据案例GDP数据案例例4.1 各国按支出类型分列的本地生产总值支出数据(GDP1.csv),该数据涉及220 个国家的9 个指标及最长47 年(1970 至2
2、016 年)的记录,单位均为美元值.该数据是矩形数据,有83060 行及4 列.数据共包括220 个国家,9 个指标及最多47 年的记录,理论上应该有220*9*47=93060 个记录,但由于不一定所有国家都提供了同样多的指标,对于每个指标也不一定提供了那么多年,因此实际上只有83060 条观测值(行).5数据相关符号及含义6整理成“观测值-变量”矩形数据 形成每个国家各个时期不同指标的多元时间序列(如:行代表年份,每列一个经济指标);形成每年的不同国家各个指标的横截面数据(如:行代表国家或地区,每列一个经济指标);形成单项指标的各个时期不同国家的多元时间序列(如:行代表年份,每列一个国家)
3、.7形成2016年各国的多指标数据 第第1步步 导入导入tidyverse包包,读入读入GDP1.csv数据数据.GDP1=read.csv(GDP1.csv)levels(GDP1,3)=paste0(V,1:9)#简化名字简化名字library(tidyverse)tb=as.tibble(GDP1)8形成2016年各国的多指标数据 第第2步步 整理整理GDP1.csv数据数据.tb2016%#选中选中2016之后去掉之后去掉Year列列spread(key=Item,value=Value)#转换转换Item元素为列元素为列,Value为值为值tb%#原始数据原始数据%是是程序包程序包p
4、urrr 提供的一个提供的一个“管道管道”性质的算子性质的算子,可以把一系列操作串起来而不用每次存一个对可以把一系列操作串起来而不用每次存一个对象象.9形成2016年各国的多指标数据subset(Year=2016)%#选择选择2016年年select(-Year)%#选择选择Year之外的变量也可以用下面一行之外的变量也可以用下面一行spread(key=Item,value=Value)%#做转换做转换ggplot(.,aes(x=V4,y=V5)+geom_point()+geom_smooth()#选选V4,V5作散点图并拟合作散点图并拟合loess曲线曲线10形成日本各个时期不同指标
5、的多元时间序列library(magrittr)#用于调用算子用于调用算子%$%#第一种方法第一种方法:固有固有R函数画图函数画图.前四行产生数据前四行产生数据,最后三行画图最后三行画图tb%subset(Country.or.Area=Japan)%#选定日本选定日本select(-Country.or.Area)%#选择除国家、地区之外的变量选择除国家、地区之外的变量spread(key=Item,value=Value)%#经济指标为列经济指标为列,时间为行时间为行select(-Year)%ts(start=1970,end=2016)%#标为时间序列标为时间序列plot(plot.t
6、ype=single,col=11:19,lty=1:9)%$%#时间序列图时间序列图legend(topleft,paste0(V,1:9),col=11:19,lty=1:9,cex=.7)#图例图例11形成日本各个时期不同指标的多元时间序列#第二种方法第二种方法:ggplot画图画图.前两行产生数据前两行产生数据,最后三行画图最后三行画图tb%subset(Country.or.Area=Japan)%#选国家选国家ggplot(aes(x=Year,y=Value)+geom_line(aes(color=Item),size=1)+theme_minimal()12形成各个时期不同国
7、家的多元时间序列只选V6(GDP)一个经济指标,先形成以时间为行,以国家为列的数据(赋值给对象GDP),然后挑选金砖五国的列(列号:28;44;95;163;182),再用函数ts 转换成时间序列类型,最后画出图4.3.13形成各个时期不同国家的多元时间序列#产生以时间为行,以国家为列的只有GDP(V6)一个指标的数据GDP=tb%subset(Item=V6)%select(-Item)%spread(key=Country.or.Area,value=Value)#准备选择BRICS国家,下面重设国家名字(原数据是很长的国家全名)BS=c(Brazil,China,India,Russia
8、,South Africa)GDP,c(28,44,95,163,182)%#只取金砖国家的列ts(start=1970,end=2016)%plot(plot.type=single,col=1:5,lty=1:5)%$%legend(topleft,BS,col=1:5,lty=1:5,cex=.7)1415二 世界卫生组织案例之一世界卫生组织案例 选取 WHO Data 名下名下Demographic and socioeconomic statistics 组和组和Risk factors 组的共11个数据集.每个数据集仅表明一些国家或地区少数年份的单一指标.希望能够选择最近的年份把这
9、些数据文件的内容放到一个数据集中,形成代表国家或地区的行及代表不同指标的列.1611个数据文件及说明17数据提取 NN=c(D1,D12,D13,D15,D16,D17,D18,D2,D5,D6,D7)Files=paste0(NN,.csv)DF=lapply(Files,read.csv)a=list(a=c(2,5,1,7),b=list(c(1:9,89,-1),New,Happy),LETTERS)a$a2 a1418数据提取 DF=list()#定义一个空list,下面再往其中赋值 for(i in 1:length(Files)DFi=read.csv(Filesi)lapply
10、(DF,names)19删除多余的行和列 U=NULL for(i in 1:length(DF)U=unique(c(U,unique(as.character(DFi,1)Trash=c(1,2,3,4,footnoteSeqID)U=setdiff(U,Trash)#集合差:去掉Trash DF=lapply(DF,function(x)xx,1%in%U,)#只取trash之外的部分 DF=lapply(DF,function(x)select(x,-Value.Footnotes)#去掉注释列20把多个数据合并成一个数据 x=DF1 for(i in 2:length(NN)x=me
展开阅读全文