大学精品课件:CHAPTER3-数据预处理.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大学精品课件:CHAPTER3-数据预处理.ppt》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 精品 课件 CHAPTER3 数据 预处理
- 资源描述:
-
1、钱峰钱峰通信通信与信息工程学院与信息工程学院2018年年第第3 3章章 数据预处理数据预处理2第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结3数据质量:为什么要对数据预处理数据质量:为什么要对数据预处理?n数据质量的评价数据质量的评价:多维角度多维角度n准确性准确性:correct or wrong,accurate or notn完整性完整性:not recorded,unavailable,n一致性一致性:some modified but some not,da
2、ngling,n时效性时效性:及时更新的及时更新的?n可信性可信性:反映有多少数据是用户信赖的反映有多少数据是用户信赖的?n可解释性可解释性:反映数据是否容易理解反映数据是否容易理解?4数据预处理的主要任务数据预处理的主要任务n数据清理数据清理n填充缺失值填充缺失值,识别识别/去除离群点去除离群点,光滑噪音光滑噪音,并纠正数据不一致并纠正数据不一致n数据集成数据集成n多个数据库多个数据库,数据立方体数据立方体,或文件的集成或文件的集成n数据归约数据归约n得到数据集的简化,它小得多,但能够产生同样的分析结果得到数据集的简化,它小得多,但能够产生同样的分析结果n数据变换数据变换n规范化规范化 n数
3、据离散化和概念分层产生数据离散化和概念分层产生5第第2章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结6数据清理数据清理n现实世界的数据是脏:很多潜在的不正确的数据,比如,仪现实世界的数据是脏:很多潜在的不正确的数据,比如,仪器故障,人为或计算机错误,许多传输错误器故障,人为或计算机错误,许多传输错误n数据缺失数据缺失:缺少属性值缺少属性值,缺少某些有趣的属性缺少某些有趣的属性,或仅包含聚或仅包含聚集数据集数据ne.g.,职业职业=“”(missing data)n噪声噪声:
4、包含错误或孤立点包含错误或孤立点ne.g.,Salary=“10”(an error)n不一致不一致:编码或名字存在差异编码或名字存在差异,e.g.,nAge=“42”,Birthday=“03/07/2010”n以前的等级以前的等级“1,2,3”,现在等级现在等级“A,B,C”n重复记录间的差异重复记录间的差异n人为有意的人为有意的(e.g.,默认值默认值)nJan.1 as everyones birthday?7如何处理缺失数据如何处理缺失数据?n忽略元组忽略元组:缺少类别标签时常用(假定涉及分类缺少类别标签时常用(假定涉及分类不是不是很有效,当每个属性的缺失百分比变化大时很有效,当每个
5、属性的缺失百分比变化大时n手工填写缺失数据手工填写缺失数据:乏味乏味+费时费时+不可行不可行?n自动填充(采用一些规则)自动填充(采用一些规则)n一个全局常量一个全局常量:e.g.,“unknown”,a new class?!n使用属性的中心度量(如均值或中位数)使用属性的中心度量(如均值或中位数)n与给定元组同一类的所有样本的属性均值与给定元组同一类的所有样本的属性均值:更巧妙更巧妙n最可能的值最可能的值:基于推理的方法,如回归、基于推理的方法,如回归、贝叶斯公式或贝叶斯公式或决策树决策树8噪声数据噪声数据n噪声噪声:被测量的变量的随机误差被测量的变量的随机误差n不正确的属性值可能由于不正
6、确的属性值可能由于n错误的数据收集工具错误的数据收集工具n数据录入问题数据录入问题n数据传输问题数据传输问题n技术限制技术限制n不一致的命名惯例不一致的命名惯例n其他需要数据清理的问题其他需要数据清理的问题n重复记录重复记录n数据不完整数据不完整n不一致的数据不一致的数据9如何处理噪音数据如何处理噪音数据?n分箱分箱:n排序数据,分布到等频排序数据,分布到等频/等宽的箱等宽的箱/桶中桶中n箱均值光滑、箱中位数光滑、箱边界光滑箱均值光滑、箱中位数光滑、箱边界光滑,etc.n聚类聚类n检测和去除检测和去除 离群点离群点/孤立点孤立点n计算机和人工检查相结合计算机和人工检查相结合n人工检查可疑值人工
7、检查可疑值(e.g.,deal with possible outliers)n回归回归n回归函数拟合数据回归函数拟合数据10分箱:简单的离散化方法分箱:简单的离散化方法n等宽度等宽度剖分剖分:n分成大小相等的分成大小相等的n个区间个区间:均匀网格均匀网格n若若A和和B是是 属性的最低和最高取值属性的最低和最高取值,区间宽度为区间宽度为:W=(B A)/N.n孤立点可能占据重要影响孤立点可能占据重要影响n倾斜的数据处理不好倾斜的数据处理不好n等频剖分等频剖分/等深等深:n分成分成n个区间个区间,每一个含近似相同数目的样本每一个含近似相同数目的样本nGood data scalingn类别属性可
8、能会非常棘手类别属性可能会非常棘手.11Binning Methods for Data Smoothing*Sorted data for price(in dollars):4,8,9,15,21,21,24,25,26,28,29,34*Partition into(等频等频)bins:-Bin 1:4,8,9,15 -Bin 2:21,21,24,25 -Bin 3:26,28,29,34*Smoothing by bin means:-Bin 1:9,9,9,9 -Bin 2:23,23,23,23 -Bin 3:29,29,29,29*Smoothing by bin bounda
9、ries:-Bin 1:4,4,4,15 -Bin 2:21,21,25,25 -Bin 3:26,26,26,3412聚类分析聚类分析13Regressionxyy=x+1X1Y1Y114数据清理作为一个过程数据清理作为一个过程n数据偏差检测数据偏差检测n使用元数据使用元数据(数据性质的知识数据性质的知识)(e.g.,定义域定义域,每个属性可接受每个属性可接受值值,统计分布,统计分布,IQR等等)n检查字段过载检查字段过载:新属性的定义挤进已经定义的属性的未使:新属性的定义挤进已经定义的属性的未使用部分用部分 n检查唯一性规则检查唯一性规则,连续性规则连续性规则,空值规则空值规则n使用商业工
10、具使用商业工具n数据清洗数据清洗:使用简单的领域知识使用简单的领域知识(e.g.,邮编邮编,拼写检查拼写检查)检查纠正错误检查纠正错误n数据审计数据审计:通过分析数据发现规则和联系发现违规者通过分析数据发现规则和联系发现违规者(孤立点孤立点)n数据迁移和集成数据迁移和集成n数据迁移工具数据迁移工具Data migration tools:允许指定转换允许指定转换n提取提取/变换变换/装入工具装入工具:允许用户通过图形用户界面指定变换允许用户通过图形用户界面指定变换n整合两个过程整合两个过程n两个过程迭代和交互执行两个过程迭代和交互执行(e.g.,Potters Wheels)15第第3章章:数
11、据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结16数据集成数据集成n数据集成数据集成:n合并多个数据源中的数据,存在一个一致的数据存储中合并多个数据源中的数据,存在一个一致的数据存储中n涉及涉及3个主要问题:模式集成、冗余数据、冲突数据值个主要问题:模式集成、冗余数据、冲突数据值n模式集成(实体识别)模式集成(实体识别)n例如例如.,A.cust-id?B.cust-#n实体识别问题实体识别问题:n多个数据源的真实世界的实体的识别多个数据源的真实世界的实体的识别,e.g.,Bill
12、 Clinton=William Clintonn集成不同来源的元数据集成不同来源的元数据n冲突数据值的检测和解决冲突数据值的检测和解决n对真实世界的实体,其不同来源的属性值可能不同对真实世界的实体,其不同来源的属性值可能不同n原因原因:不同的表示不同的表示,不同尺度不同尺度,公制公制 vs.英制英制17数据集成中冗余数据处理数据集成中冗余数据处理n冗余数据(集成多个数据库时出现)冗余数据(集成多个数据库时出现)n目标识别目标识别:同一个属性在不同的数据库中有不同的名称:同一个属性在不同的数据库中有不同的名称n衍生数据衍生数据:一个属性值可由其他表的属性推导出:一个属性值可由其他表的属性推导出
13、,e.g.,年收入年收入n相关分析相关分析/协方差分析协方差分析n可用于检测冗余数据可用于检测冗余数据n小心的集成多个来源的数据可以帮助降低和避免结果数据小心的集成多个来源的数据可以帮助降低和避免结果数据集中的冗余和不一致,提高数据挖掘的速度和质量集中的冗余和不一致,提高数据挖掘的速度和质量18相关分析相关分析(数值数据数值数据)nCorrelation coefficient(also called Pearsons product moment coefficient)n相关系数(皮尔逊相关系数)相关系数(皮尔逊相关系数)n元组个数元组个数,和和 属性属性A和和B上的平均值上的平均值,A
14、和和B分别为各分别为各自标准差,自标准差,(aibi)是是 AB叉积叉积(cross-product)之和之和.nrA,B 0,A和和B正相关正相关(值越大相关程度越高值越大相关程度越高)nrA,B=0:不相关不相关;nrAB 0,A 和和B 同时倾向于大于期望值。同时倾向于大于期望值。n负协方差:负协方差:CovA,B 0.21Co-Variance:An Example标称数据的标称数据的X2相关检验相关检验n2(chi-square)卡方检验卡方检验nij是是(ai,bj)的观测频度(实际计数)的观测频度(实际计数)neij是是(ai,bj)的期望频度的期望频度nN数据元组的个数数据元组
15、的个数A属性a1a2iacb1Bb2jbr(A=ai,B=bj)rjijijijciee1212)(NbBcountaAcountejiij)(*)(n2 值越大值越大,相关的可能越大相关的可能越大n对对 2 值贡献最大的项,其实值贡献最大的项,其实际值与期望值相差最大的项际值与期望值相差最大的项n相关不意味着因果关系相关不意味着因果关系23卡方分布卡方分布24Chi-Square 卡方值计算卡方值计算:例子例子n2(卡方)(卡方)计算(括号中的值为期望计值,由两个类别的计算(括号中的值为期望计值,由两个类别的分布数据计算得到)分布数据计算得到)n结果表明结果表明like_fiction 和和
16、play_chess 关联关联93.507840)8401000(360)360200(210)21050(90)90250(22222Play chessNot play chessSum(row)看小说看小说250(90)200(360)450不看小说不看小说50(210)1000(840)1050Sum(col.)30012001500901500300*450)(*)(11Ncountcounte下棋看小说25第第3章章:数据预处理数据预处理n数据预处理:概述数据预处理:概述n数据清理数据清理 n数据集成数据集成n数据归约数据归约n数据变换和数据离散化数据变换和数据离散化n小结小结26
17、数据规约策略数据规约策略n数据归约数据归约:获得数据集的一个获得数据集的一个规约规约表示,小很多,接近保持表示,小很多,接近保持原数据的完整性,使得可原数据的完整性,使得可得到相同得到相同/几乎相同的分析结果几乎相同的分析结果n为什么需要数据归约为什么需要数据归约?数据库和数据仓库可能存储数据库和数据仓库可能存储兆兆字兆兆字节节大小数据,在完整的数据库进行复杂数据分析需要花费大大小数据,在完整的数据库进行复杂数据分析需要花费大量时间量时间.n数据归约策略数据归约策略n维归约维归约,e.g.,e.g.,减少不重要的属性减少不重要的属性n小波变换小波变换n主成分分析主成分分析n特征子集选择特征子集
18、选择n数量归约:数量归约:用较小的数据形式替代原始数据用较小的数据形式替代原始数据n回归和对数回归和对数-线性模型线性模型n直方图直方图,聚类聚类,抽样抽样n数据立方体聚集数据立方体聚集n数据压缩数据压缩27维归约维归约n维数灾难:维数增加,数据变得稀疏维数灾难:维数增加,数据变得稀疏n稀疏数据使得点之间的距离变得不太有意义稀疏数据使得点之间的距离变得不太有意义n计算复杂度增加:子空间的可能的组合将成倍增长计算复杂度增加:子空间的可能的组合将成倍增长n维数归约:降低维度,避免维数灾难维数归约:降低维度,避免维数灾难n有助去掉不相关的属性和减少噪声有助去掉不相关的属性和减少噪声n减少数据挖掘的计
19、算时间和空间减少数据挖掘的计算时间和空间n更容易可视化更容易可视化n维数归约技术维数归约技术n小波变换小波变换n主成分分析主成分分析n有监督和非线性有监督和非线性 (例如:例如:特征选择特征选择)28维归约维归约小波变换小波变换n离散傅里叶变换离散傅里叶变换 通常只关注某一频段,减少数据量通常只关注某一频段,减少数据量n小波变换:将数据变换到新的空间小波变换:将数据变换到新的空间 n离散小波变换离散小波变换 a是时间偏移,是时间偏移,b是尺度是尺度将将a、b离散化取值离散化取值FFT vs wavelet0100200300400500600-1-0.8-0.6-0.4-0.200.20.40
20、.60.81050010001500200025003035404550556065TimeFrequency02004006008001000120014001600180000.10.20.30.40.50.60.70.80.910100200300400500600-1-0.8-0.6-0.4-0.200.20.40.60.81nLinear chirp and waveletnTake a linear chirp and its FFT3030 x2x1e维归约维归约主成分分析主成分分析(PCA)nPrincipal Component Analysis,K-L变换变换n找到一个投影
21、,其能表示数据的最大变化找到一个投影,其能表示数据的最大变化n原始数据投影到一个更小的空间中,导致维度减少原始数据投影到一个更小的空间中,导致维度减少3131n给定给定p维空间中的维空间中的N各点各点,找到找到 k p 个个正交向量正交向量(principal components)可以很好表示原始数据的可以很好表示原始数据的 n归范化输入数据归范化输入数据:每个属性值位于相同的区间内每个属性值位于相同的区间内n计算计算 k 个标准正交向量个标准正交向量,i.e.,principal componentsn每个输入的点是这每个输入的点是这k 个主成分的线性组合个主成分的线性组合n对主成分按对主
展开阅读全文