数据挖掘的清洗-PPT课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘的清洗-PPT课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 清洗 PPT 课件
- 资源描述:
-
1、7/21/20221数据预处理 为什么需要数据预处理?数据清洗 数据集成与转换 数据归约 数据离散化与概念层次的构建 本章小结7/21/20222为什么需要数据预处理?在现实社会中,存在着大量的“脏”数据 不完整性(数据结构的设计人员、数据采集设备和数据录入人员)缺少感兴趣的属性 感兴趣的属性缺少部分属性值 仅仅包含聚合数据,没有详细数据 噪音数据(采集数据的设备、数据录入人员、数据传输)数据中包含错误的信息 存在着部分偏离期望值的孤立点 不一致性(数据结构的设计人员、数据录入人员)数据结构的不一致性 Label的不一致性 数据值的不一致性7/21/20223为什么需要数据预处理?数据挖掘的数
2、据源可能是多个互相独立的数据源 关系数据库 多维数据库(Data Cube)文件、文档数据库 数据转换 为了数据挖掘的方便 海量数据的处理 数据归约(在获得相同或者相似结果的前提下)7/21/20224为什么需要数据预处理?没有高质量的数据,就没有高质量的挖掘结果 高质量的决策必须基于高质量的数据基础上 数据仓库是在高质量数据上的集成7/21/20225数据预处理的主要任务 数据清理 填入缺失数据 平滑噪音数据 确认和去除孤立点 解决不一致性 数据集成 多个数据库、Data Cube和文件系统的集成 数据转换 规范化、聚集等 数据归约 在可能获得相同或相似结果的前提下,对数据的容量进行有效的缩
3、减 数据离散化 对于一个特定的连续属性,尤其是连续的数字属性,可以把属性值划分成若干区间,以区间值来代替实际数据值,以减少属性值的个数.7/21/20226数据预处理的形式数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约7/21/20227主要内容 为什么需要数据预处理?数据清洗 数据集成与转换 数据归约 数据离散化与概念层次的构建 本章小结7/21/20228数据清洗 主要任务 补充缺失数据 识别孤立点,平滑噪音数据 处理不一致的数据7/21/20229缺失数据的处理 部分数据通常是不可用的 在许多元组中部分属性值为空。如:在客户表中的客户收入为空。导致数据缺失的原因 数据采
4、集设备的故障 由于与其它信息的数据存在不一致性,因此数据项被删除 由于不理解或者不知道而未能输入 在当时数据输入的时候,该数据项不重要而忽略 数据传输过程中引入的错误 缺失数据通常需要经过合理的推断予以添加7/21/202210缺失数据的处理方法 忽略该记录(元组)通常在进行分类、描述、聚类等挖掘,但是元组缺失类标识时 该种方法通常不是最佳的,尤其是缺失数据比例比较大的时候 手工填入空缺的值 枯燥、费时,可操作性差,不推荐使用 使用一个全局的常量填充空缺数值 给定一个固定的属性值如:未知、不祥、Unknown、Null等 简单,但是没有意义7/21/202211使用属性的平均值填充空缺数值 简
5、单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值 分类非常重要,尤其是分类指标的选择使用最有可能的值予以填充 利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定 利用属性之间的关系进行推断,保持了属性之间的联系缺失数据的处理方法(续)7/21/202212噪音数据 噪音数据:一个度量(指标)变量中的随机错误或者偏差 主要原因 数据采集设备的错误 数据录入问题 数据传输问题 部分技术的限制 数据转换中的不一致 数据清理中所需要处理的其它问题 重复的记录 不完整的数据 不一致的数据7/21/202213噪音数据的处理 分箱(Binning)的方法 聚类
6、方法 检测并消除异常点 线性回归 对不符合回归的数据进行平滑处理 人机结合共同检测 由计算机检测可疑的点,然后由用户确认7/21/202214处理噪音数据:分箱方法 分箱(Binning)方法:基本思想:通过考察相邻数据的值,来平滑存储数据的值 基本步骤:首先,对数据进行排序,并分配到具有相同宽度/深度的不同的“箱子”中 其次,通过箱子的平均值(Means)、中值(Median)、或者边界值等来进行平滑处理7/21/202215分箱(Binning)方法举例对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34对数据进行分割(相同深度):-Bin 1:4,8,9,15
7、-Bin 2:21,21,24,25-Bin 3:26,28,29,34根据bin中的平均值进行离散化:-Bin 1:9,9,9,9-Bin 2:23,23,23,23-Bin 3:29,29,29,297/21/202216基于聚类分析的平滑处理7/21/202217通过线性回归的平滑处理xyy=x+1X1Y1Y17/21/202218主要内容 为什么需要数据预处理 数据清洗 数据集成与转换 数据归约 数据离散化与概念层次的构建 本章小结7/21/202219数据集成数据集成的概念 将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据源包括:多个数据库、多维数据库和一般的文件 数据集
8、成也是数据仓库建设中的一个重要问题数据集成的内容 模式集成 利用数据库和数据仓库的元数据信息 主要工作是识别现实世界中的实体定义 冗余数据的处理 检测和解决数值冲突 对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 主要原因:不同的数据表示、度量单位、编码方式以及语义的不同7/21/202220数据集成数据集成的概念 将多个数据源中的数据结合起来存放在一个一致的数据存储中 数据源包括:多个数据库、多维数据库和一般的文件 数据集成也是数据仓库建设中的一个重要问题数据集成的内容 模式集成 利用数据库和数据仓库的元数据信息 主要工作是识别现实世界中的实体定义 冗余数据的处理 检测和解决数值
9、冲突 对于现实世界中的同一实体,来自于不同数据源的属性值可能不同 主要原因:不同的数据表示、度量单位、编码方式以及语义的不同7/21/202221模式集成 数据类型冲突 性别:string(Male、Female)、Char(M、F)、Interger(0、1)日期:Date、DateTime、String 数据标签冲突:解决同名异义、异名同义 学生成绩、分数度量单位冲突 学生成绩 百分制:100 0 五分制:A、B、C、D、E 字符表示:优、良、及格、不及格概念不清 最近交易额:前一个小时、昨天、本周、本月?聚集冲突:根源在于表结构的设计 7/21/202222冗余数据的处理从多个数据源中抽
展开阅读全文