数据预处理-ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据预处理-ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 预处理 ppt 课件
- 资源描述:
-
1、数据挖掘目录 CONTENTS1.52 3.13.23.33.4数据存在的问题数据清理数据集成数据归约3.5数据变换与数据离散化Chapter 3.1数据存在的问题4 3.1 数据存在的问题l数据预处理是数据挖掘中的重要一环,而且必不可少。要更有效地挖掘出知识,就必须为其提供干净,准确,简洁的数据。l现实世界中数据大体上都是不完整,不一致的脏数据,无法直接进行数据挖掘,或挖掘结果差强人意。5 3.1 数据存在的问题 数据的不一致:各系统间的数据存在较大的不一致性 如属性重量的单位: A数据库重量单位kg B数据库重量单位g6 3.1 数据存在的问题 噪声数据:数据中存在着错误或异常(偏离期望值
2、),如:血压和身高为0就是明显的错误。 可能的原因有:收集数据的时候难以得到精确的数据,收集数据的设备可能出现故障;数据输入时可能出现错误;数据传输过程中可能出现错误;存储介质有可能出现损坏等。7 3.1 数据存在的问题 缺失值:由于实际系统设计时存在的缺陷以及使用过程中的一些人为因素,数据记录可能会出现数据值的丢失或不确定。可能的原因有:l有些属性的内容有时没有;(家庭收入,参与销售事务数据中的顾客信息)l有些数据当时被认为是不必要的;l由于误解或检测设备失灵导致相关数据没有记录下来;l与其它记录内容不一致而被删除;l忽略了历史数据或对数据的修改。8 3.1 数据存在的问题 数据质量要求l准
3、确性;l完整性;l一致性;l时效性;l可信性;l可解释性。9 3.1 数据存在的问题数据预处理的任务l数据清理(清洗) 去掉数据中的噪声,纠正不一致。l数据集成 将多个数据源合并成一致的数据存储,构成一个完整的数据集,如数据仓库。l数据归约(消减) 通过聚集、删除冗余属性或聚类等方法来压缩数据。 l数据变换(转换) 将一种格式的数据转换为另一格式的数据(如规范化)。10 3.1 数据存在的问题注意: 现实世界中的数据需要使用数据预处理来提高数据的质量。这可以提高挖掘过程的准确率和效率。因此,数据预处理是数据挖掘的重要步骤。11 3.1 数据存在的问题Chapter 3.2数据清理12 3.1
4、数据存在的问题12 3.2 数据清理 现实世界中大多数的数据是不完整的、有噪声的和不一致的。那么就需要对“脏”的数据进行数据清理。数据清理就是对数据进行重新审查和校验的过程。其目的在于纠正存在的错误,并提供数据一致性。 缺失值的处理; 噪声数据; 不一致数据。13 3.1 数据存在的问题13 3.2 数据清理引起空缺值的原因 设备异常 与其他已有数据不一致而被删除 因为误解而没有被输入的数据 在输入时,有些数据因为得不到重视而没有被输入 对数据的改变没有进行日志记载空缺值要经过推断而补上14 3.1 数据存在的问题14 3.2 数据清理 如何处理空缺值?1)忽略元组:若一条记录中有属性值被遗漏
5、了,则将该记录排除在数据挖掘之外但是,当某类属性的空缺值所占百分比很大时,直接忽略元组会使挖掘性能变得非常差2)忽略属性列:若某个属性的缺失值太多,则在整个数据集中可以忽略该属性15 3.1 数据存在的问题15 3.2 数据清理如何处理空缺值?3)人工填写空缺值:工作量大,可行性低4)使用属性的中心度量值填充空缺值:如一条属于a类的记录在A属性上存在缺失值,那么可以用该属性上属于a类全部记录的平均值来代替该缺失值。如面对顾客一次来超市时最常消费的钱数这一字段,可以按照顾客的年龄这一字段进行分类,使用处于相同年龄段的顾客的平均消费的钱数来填充缺失值。16 3.1 数据存在的问题16 3.2 数据
6、清理如何处理空缺值?5)使用一个全局变量填充空缺值:对一个所有属性的所有缺失值都使用一个固定的值来填补(如“Not sure”或)。尽管该方法简单,并不推荐它挖掘的程序可能会误以为这是一个特殊的概念17 3.1 数据存在的问题17 3.2 数据清理如何处理空缺值?6)使用可能的特征值来替换空缺值(最常用):数据挖掘者可以生成一个预测模型,来预测每个丢失值如可以利用回归、贝叶斯计算公式或判定树归纳确定,推断出该条记录特定属性最大可能的取值如每个样本给定3个特征A、B、C,那么可以根据三个值全都作为一个训练集的样本,生成一个特征之间的关系模型,一旦有了训练好的模型,就可以提出一个包含丢失值的新样本
7、,并产生预测值。 18 3.1 数据存在的问题18 3.2 数据清理 噪声数据噪声(noise) :被测量的变量产生的随机错误或误差数据收集工具的问题数据输入错误数据传输错误技术限制命名规则的不一致19 3.1 数据存在的问题19 3.2 数据清理 如何检测噪声数据?11()()1nTnininiVxxxxn1211()()nTiinniniMxxVxx马氏距离很大的n维样本就看作噪声数据。20 3.1 数据存在的问题20 3.2 数据清理21 3.2 数据清理例:给定一组三维样本S,,求在距离阈值d大于等于4,非邻点样本的阈值部分p大于等于3时的噪声数据。123456 , (1,2,0),(
8、3,1,4),(2,1,5),(0,1,6),(2,4,3),(4,4,2)SS S S S S S首先,求数据集的欧几里得距离,使用222121212= ()() +()dxxyyzz,计算结果如表所示。表 数据集S的距离表4.5835.1966.1643.7424.1231.4143.6063.3173.7422.2363.6064.6904.6906.4032.23622 3.2 数据清理根据表中的结果,可选择S1、S4、S6作为噪声数据。(因为它们的p值大于等于3)。表 S中每个点的距离大于d的p点个数然后根据阈值距离d=4,计算出每个样本参数p=3的值样本样本p p41231323
9、3.1 数据存在的问题23 3.2 数据清理 不一致数据数据的不一致性,就是指各类数据的矛盾性、不相容性数据库系统都会有一些相应的措施来解决并保护数据库的一致性,可以使用数据库系统来保护数据的一致。24 3.2 数据清理数据清理方式噪声和缺失值都会产生“脏”的数据有很多原因会使数据产生错误。这时,就需要对数据进行偏差检测。可以使用唯一性原则、连续性原则和空值原则观察数据,来进行偏差检测。1)唯一性规则2)连续性规则3)空值规则25 3.1 数据存在的问题Chapter 3.3数据集成26 3.1 数据存在的问题26 3.3 数据集成数据集成把不同来源、格式、特点和性质的数据合理地集中并合并起来
10、。这些源可以是关系型数据库、数据立方体或一般文件。它需要统一原始数据中的所有矛盾之处,如字段的同名异义;异名同义;单位不统一;字长不一致等。27 3.1 数据存在的问题27 3.3 数据集成集成过程中需要注意的问题:集成的过程中涉及的实体识别问题;冗余问题。28 3.1 数据存在的问题28 3.3 数据集成整合不同数据源中的元数据;进行实体识别:匹配来自不同数据源的现实世界的实体;如:如何确信一个数据库中的brand_name和另一个数据库中的product_name是同一实体。通常,数据库的数据字典和数据仓库的元数据,可帮助避免模式集成中的错误。集成的过程中涉及的实体识别:29 3.1 数据
11、存在的问题29 3.3 数据集成同一属性值不同的数据库中会有不同的字段名;一个属性可以由另外一个表导出,如:一个顾客数据表中的平均月收入属性,可以根据月收入属性计算出来。冗余问题:30 3.1 数据存在的问题30 3.3 数据集成数值属性:采用相关系数和协方差进行相关性分析标称属性:使用卡方检验进行相关性分析冗余的检测:31 3.1 数据存在的问题31 3.3 数据集成数值属性:采用相关系数和协方差进行相关性分析1. 相关系数:32 3.1 数据存在的问题32 3.3 数据集成相关系数实例例:数值属性的协方差分析。表3.6 体重与血压表123456789101112体重684856608356
12、625977587564血压95988796 110 155 135 128 113 168 120 115表3.7 体重和血压的均值和标准差值 均值标准差体重63.8310.14血压118.3324.7433 3.1 数据存在的问题33 3.3 数据集成数值属性:采用相关系数和协方差进行相关性分析2. 协方差:34 3.1 数据存在的问题34 3.3 数据集成协方差实例例:使用表3.6数据,求血压是否会随着体重一起变化。然后,计算协方差协方差为负,血压和体重呈负相关。计算期望值68485660835662+5977587564()=63.8312E X9598 8796 110 155 13
13、5 128 113 168 120 115( )=118.3312E Y,(,)=-0.11210.1424.74=28.10X YXYCov X Yr35 3.1 数据存在的问题35 3.3 数据集成标称属性:使用卡方检验进行相关性分析卡方检验:36 3.1 数据存在的问题36 3.3 数据集成 标称属性:使用卡方检验进行相关性分析XYx1x2xixnsumy1O11O12O1iO1nO1.y2O21O22O2iO2nO2.yjOj1Oj2OjiOjnOj.yrOr1Or2OriOrnOr.sumO.1O.2O.iO.nm表 列联表37 3.1 数据存在的问题37 3.3 数据集成 标称属性
14、:使用卡方检验进行相关性分析独立性检验的步骤如下:(1)统计假设:H0:属性X和属性Y之间是独立的 (H1:属性X和属性Y之间是相关的)(2)期望频数的计算,计算公式如式所示。(3)自由度的确定38 3.1 数据存在的问题38 3.3 数据集成 标称属性:使用卡方检验进行相关性分析39 3.1 数据存在的问题39 3.3 数据集成 标称属性:使用卡方检验进行相关性分析(5)统计推断40 3.1 数据存在的问题40 3.3 数据集成卡方检验实例:二分类情况例:对工农业从业者某一年龄段男性患高血压病的情况进行调查,如下表。分析某一年龄段男性患某种疾病与从事工农业是否有影响。 患病情况从业情况患病不
15、患病合计工业3868951281农业65322387合计45112171668表 四方格列联表41 3.1 数据存在的问题41 3.3 数据集成卡方检验实例:二分类情况(1)统计假设: H0:某一年龄段男性患某种疾病与从事工农业无关(2)期望频数的计算。 患病情况从业情况患病不患病合计工业386(346.36)895(934.64)1281农业65(104.64)322(282.36)387合计45112171668表 四方格列联表(期望频数)42 3.1 数据存在的问题42 3.3 数据集成卡方检验实例:二分类情况(3)自由度的确定:df=(2-1)*(2-1)=1(4)卡方统计量的计算 患
16、病情况从业情况患病不患病合计工业386(346.36)895(934.64)1281农业65(104.64)322(282.36)387合计45112171668表 四方格列联表(期望频数)43 3.1 数据存在的问题43 3.3 数据集成卡方检验实例:二分类情况(5)统计判断显著水平自由度0.990.980.950.900.500.100.050.020.010.00510.0000.0010.0040.0160.0452.713.845.416.6410.8320.0200.0400.1030.2111.364.615.997.829.2113.8230.1150.1850.3520.58
展开阅读全文