大数据预处理技术第7章基于Python的数据导入与导出课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据预处理技术第7章基于Python的数据导入与导出课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 技术 基于 Python 导入 导出 课件
- 资源描述:
-
1、数据预处理-第七章基于Python导入与导出数据目录01020304Pandas文本文件导入与导出二进制文件导入与导出数据库导入与导出01PandasPandas 阶段1:Pandas 阶段2:Series 阶段3:DataFramePandas官方的解释:pandas是一个基于BSD开源协议的开源库,提供了用于python编程语言的高性能、易于使用的数据结构和数据分析工具。Pandaspandas适用于以下多种类型的数据n 表格型的数据,且表格的各列可能具有不同的数据类型,例如关系型数据库表格,或者Excel表格数据n 有序或无序的时间序列数据n 带有行和列标签的矩阵数据n 各种统计/观测数
2、据集 PandasAnaconda 下:conda install pandasPIP 下:pip install pandas(推荐)Pandas的安装Pandasimport pandas as 别名 如 import pandas as pd Python代码中pandas的引入方法PandasPandas提供了两种主要的数据结构n Series:用于处理一维数据n DataFrame。用于处理二维数据。SeriesSeries是一种类似于数组的一维数据结构,包含了一系列的元素以及元素对应的标签。元素的标签称为index。1A2B3C4Dindex什么是一维数据?Seriesfrom p
3、andas import Series as 别名单独引入Series数据结构的方法pandas.SeriesPandas中Series数据结构的使用Series可以基于一个list构造一个 s=Series(3,8,-5,1)In 1:from pandas import SeriesIn 2:s=Series(3,8,-5,1)In 3:sOut4:0 31 82 -53 1dtype:int64Series访问Series对象的values属性和index属性In 6:s.valuesOut6:array(3,8,-5,1)In 7:s.indexOut7:RangeIndex(star
4、t=0,stop=4,step=1)Series创建Series对象的指定index In 8:s2=Series(3,8,-5,1,index=a,b,c,d)In 9:s2Out9:a 3b 8c -5d 1dtype:int64 In 10:s2.indexOut10:Index(a,b,c,d,dtype=object)Series访问单个元素值,使用类似list访问元素的语法 In 11:s22Out11:-5 In 12:s2cOut12:-5Series通过index列表选择Series对象的多个元素值In 16:s2c,a,dOut16:c -5a 3d 1dtype:int6
5、4SeriesSeries对象可以和一个实数做算术运算In 17:s2*3Out17:a 9b 24c -15d 3 dtype:int64SeriesSeries对象和一个实数做逻辑运算,Series对象的元素返回bool类型。In 18:s2 0Out18:a Trueb Truec Falsed Truedtype:boolSeries使用BOOL序列过滤Series对象。In 19:s2s20Out19:a 3b 8d 1dtype:int64SeriesIn 21:a in s2Out21:True In 22:x in s2Out22:False许多map的操作可以应用在Serie
6、s上 SeriesSeries对象value通过赋值能够改变 In 25:s2b=2In 26:s2Out26:a 3b 2c -5d 1dtype:int64SeriesSeries对象的index也可以通过赋值来改变 In 27:s2.index=list(wxyz)In 28:s2Out28:w 3x 8y -5z 1dtype:int64Series基于字典(Dictionary)也能够创建Series对象 In 23:s3=Series(a:1,b:2,c:3)In 24:s3Out24:a 1b 2c 3dtype:int64DataFrameDataFrame是一种带标签的二维数
7、据结构,其中各列可以存储不同的数据类型。序号标题abc1230.10.20.3ABC123DataFramefrom pandas import DataFrame as 别名Python代码中引入DataFrame方法数据来源In 31:data=int_column:1,2,3,.:float_column:3.3,5.5,6.6,.:string_column:aaa,bbb,cccIn 32:df=DataFrame(data)In 33:dfOut33:float_column int_column string_column0 3.3 1 aaa1 5.5 2 bbb2 6.6 3
8、 ccc基于字典构造一个DataFrame对象DataFrameDataFrame的各列是有序排列的,可以在创建的时候传递columns参数调整顺序。而index参数则为每一行指定了一个index。DataFrame(data,columns=列名称列表,index=索引名称列表 )DataFrameIn 44:df=DataFrame(.:data,.:columns=string_column,int_column,float_column,na_column,.:index=a,b,c)In 45:dfOut45:string_column int_column float_column
9、 na_columna aaa 1 3.3 NaNb bbb 2 5.5 NaNc ccc 3 6.6 NaNDataFrame获取DataFrame对象的一列,返回Series对象 In 46:c=dffloat_column 或者 df.float_columnsIn 47:type(c)Out47:pandas.core.series.Series In 48:cOut48:a 3.3b 5.5c 6.6Name:float_column,dtype:float64DataFrameDataFrame对象具有一些基本的统计方法,它们是按列进行计算的,返回的结果是一个Series对象。In
10、 6:df.mean()Out6:int_column 2.000000float_column 5.133333dtype:float64 In 7:df.sum()Out7:string_column aaabbbcccint_column 6float_column 15.4na_column Nonedtype:object计算每列的均值计算每列之和DataFrameDataFrame对象之间也可以进行一些基本计算,是以列名找出匹配的列进行计算,例如加法运算。In 9:df1=DataFrame(a:1,2,3,b:4,5,6,c:7,8,9)In 10:df2=DataFrame(d
11、:10,20,30,b:40,50,60,c:70,80,90)In 11:df1+df2Out11:a b c d0 NaN 44 77 NaN1 NaN 55 88 NaN2 NaN 66 99 NaN小结本章节知识点n Pandasn Seriesn DataFrame02文本文件导入与导出文本文件导入与导出 阶段1:CSV文件导入 阶段2:CSV文件导出 阶段3:JSON格式文件导入与导出CSV文件导入csv,即comma-separated values,表示以逗号分隔的值。csv文件是一种比较简单的文本格式,广泛用于存储表格式的行列数据,可以直接使用excel软件打开。pandas
12、提供了read_csv函数,用于导入csv文件,并得到一个DataFrame对象。此外,还提供了read_table函数,能够进一步导入使用其他分隔符的类csv文件。CSV文件导入a,b,c,d,message1,2,3,4,hello5,6,7,8,world9,10,11,12,footest1.csv数据源示例1CSV文件导入In 5:df=pandas.read_csv(test1.csv)In 6:dfOut6:a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 fooread_csv函数的使用CSV文件导入In 7:d
13、f=pandas.read_table(test1.csv,sep=,)In 8:dfOut8:a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 fooread_table函数的使用CSV文件导入1,2,3,4,hello5,6,7,8,world9,10,11,12,footest2.csv数据源示例2CSV文件导入In 10:pandas.read_csv(test2.csv,header=None)Out10:0 1 2 3 40 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 foocs
14、v文件没有名称行 CSV文件导入read_csv函数提供“names”参数设置列标签名称。In 11:pandas.read_csv(test2.csv,names=a,b,c,d,message)Out11:a b c d message0 1 2 3 4 hello1 5 6 7 8 world2 9 10 11 12 fooCSV文件导入假如希望让message列成为DataFrame对象的index,可以使用index_col参数。In 12:names=a,b,c,d,message In 13:pandas.read_csv(test2.csv,names=names,index_
15、col=message)Out13:a b c dmessage hello 1 2 3 4world 5 6 7 8foo 9 10 11 12CSV文件导入 A B Caaa -0.264438 -1.026059 -0.619500bbb 0.927272 0.302904 -0.032399ccc -0.264273 -0.386314 -0.217601ddd -0.871858 -0.348382 1.100491test3.csv数据源示例3CSV文件导入In 16:pandas.read_table(test3.csv,sep=s+)Out16:A B Caaa-0.26443
16、8-1.026059-0.619500bbb 0.927272 0.302904-0.032399ccc-0.264273-0.386314-0.217601ddd-0.871858-0.348382 1.100491一个或多个空格可以使用正则表达式来表述:s+CSV文件导入使用skiprows参数忽略行 In 19:pandas.read_csv(test3.csv,sep=s+,skiprows=1)Out19:A B Cbbb 0.927272 0.302904-0.032399ccc -0.264273-0.386314-0.217601ddd -0.871858-0.348382 1
17、.100491CSV文件导入使用nrows参数可以控制读入的行数 In 19:pandas.read_csv(test3.csv,sep=s+,nrows=3)Out19:A B Caaa -0.264438-1.026059-0.619500bbb 0.927272 0.302904-0.032399ccc -0.264273-0.386314-0.217601CSV文件导入参数:filepath_or_buffer:表示文件系统位置、URL、文件型对象的字符串sep或delimiter:用于对行中各字段进行拆分的字符序列或正则表达式r,t,多种分隔符时使用s+header:用作列名的行号。
18、默认为0(第一行),如果没有header行就应该设置为Noneindex_col:用作行索引的列编号或列名。可以是单个名称/数字或由多个名称/数字组成的列表(层次化索引)names:用于结果的列名列表,结合header=Noneskiprows:需要忽略的行数(从文件开始处算起),或需要跳过的行号列表(从0开始)skip_footer:需要忽略的行数(从文件末尾处算起)na_values:将这个值替换成NAnrows:需要读取的行数(从文件开始处算起)encoding:用于unicode文本编码格式。Python2默认“ascii”python3默认“utf-8”thousands:千分位分隔
19、符,如,或“.”Pandas.read_csv/read_table常用参数列表CSV文件导入参数详情参考:http:/pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html#pandas.read_csvCSV文件导出to_csv()将DataFrame导出为csv格式的文件to_csv()是DataFrame类的方法read_csv()是pandas类的方法CSV文件导出数据源示例4something,a,b,c,d,messageone,1,2,3,4,two,5,6,8,worldthree,9,10,11
20、,12,footest4.csvCSV文件导出读取test4.csv文件In 27:data=pandas.read_csv(test4.csv)In 28:dataOut28:something a b c d message0 one 1 2 3.0 4 NaN1 two 5 6 NaN 8 world2 three 9 10 11.0 12 fooCSV文件导出导出data数据到csv文件In 30:data.to_csv(out4.csv)查看out4.csv,something,a,b,c,d,message0,one,1,2,3.0,4,1,two,5,6,8,world2,thr
展开阅读全文