数据挖掘的清洗-PPT课件.ppt

上传人（卖家）：三亚风情

文档编号：3539452

上传时间：2022-09-14

格式：PPT

页数：46

大小：145KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数据挖掘的清洗-PPT课件.ppt》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据挖掘清洗 PPT 课件

资源描述：: 1、7/21/20221数据预处理为什么需要数据预处理?数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结7/21/20222为什么需要数据预处理?在现实社会中，存在着大量的“脏”数据不完整性（数据结构的设计人员、数据采集设备和数据录入人员）缺少感兴趣的属性感兴趣的属性缺少部分属性值仅仅包含聚合数据，没有详细数据噪音数据（采集数据的设备、数据录入人员、数据传输）数据中包含错误的信息存在着部分偏离期望值的孤立点不一致性（数据结构的设计人员、数据录入人员）数据结构的不一致性 Label的不一致性数据值的不一致性7/21/20223为什么需要数据预处理?数据挖掘的数
2、据源可能是多个互相独立的数据源关系数据库多维数据库（Data Cube）文件、文档数据库数据转换为了数据挖掘的方便海量数据的处理数据归约（在获得相同或者相似结果的前提下）7/21/20224为什么需要数据预处理？没有高质量的数据，就没有高质量的挖掘结果高质量的决策必须基于高质量的数据基础上数据仓库是在高质量数据上的集成7/21/20225数据预处理的主要任务数据清理填入缺失数据平滑噪音数据确认和去除孤立点解决不一致性数据集成多个数据库、Data Cube和文件系统的集成数据转换规范化、聚集等数据归约在可能获得相同或相似结果的前提下，对数据的容量进行有效的缩
3、减数据离散化对于一个特定的连续属性，尤其是连续的数字属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数.7/21/20226数据预处理的形式数据清理数据清理数据集成数据集成数据转换数据转换数据归约数据归约7/21/20227主要内容为什么需要数据预处理?数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结7/21/20228数据清洗主要任务补充缺失数据识别孤立点，平滑噪音数据处理不一致的数据7/21/20229缺失数据的处理部分数据通常是不可用的在许多元组中部分属性值为空。如：在客户表中的客户收入为空。导致数据缺失的原因数据采
4、集设备的故障由于与其它信息的数据存在不一致性，因此数据项被删除由于不理解或者不知道而未能输入在当时数据输入的时候，该数据项不重要而忽略数据传输过程中引入的错误缺失数据通常需要经过合理的推断予以添加7/21/202210缺失数据的处理方法忽略该记录（元组）通常在进行分类、描述、聚类等挖掘，但是元组缺失类标识时该种方法通常不是最佳的，尤其是缺失数据比例比较大的时候手工填入空缺的值枯燥、费时，可操作性差，不推荐使用使用一个全局的常量填充空缺数值给定一个固定的属性值如：未知、不祥、Unknown、Null等简单，但是没有意义7/21/202211使用属性的平均值填充空缺数值简
5、单方便、挖掘结果容易产生不精确的结果使用与给定元组同一个类别的所有样本的平均值分类非常重要，尤其是分类指标的选择使用最有可能的值予以填充利用回归、基于推导的使用贝叶斯形式化的方法的工具或者判定树归纳确定利用属性之间的关系进行推断，保持了属性之间的联系缺失数据的处理方法（续）7/21/202212噪音数据噪音数据:一个度量（指标）变量中的随机错误或者偏差主要原因数据采集设备的错误数据录入问题数据传输问题部分技术的限制数据转换中的不一致数据清理中所需要处理的其它问题重复的记录不完整的数据不一致的数据7/21/202213噪音数据的处理分箱（Binning）的方法聚类
6、方法检测并消除异常点线性回归对不符合回归的数据进行平滑处理人机结合共同检测由计算机检测可疑的点，然后由用户确认7/21/202214处理噪音数据：分箱方法分箱（Binning）方法:基本思想：通过考察相邻数据的值，来平滑存储数据的值基本步骤：首先，对数据进行排序，并分配到具有相同宽度/深度的不同的“箱子”中其次，通过箱子的平均值（Means）、中值（Median）、或者边界值等来进行平滑处理7/21/202215分箱（Binning）方法举例对数据进行排序:4,8,9,15,21,21,24,25,26,28,29,34对数据进行分割(相同深度):-Bin 1:4,8,9,15
7、-Bin 2:21,21,24,25-Bin 3:26,28,29,34根据bin中的平均值进行离散化:-Bin 1:9,9,9,9-Bin 2:23,23,23,23-Bin 3:29,29,29,297/21/202216基于聚类分析的平滑处理7/21/202217通过线性回归的平滑处理xyy=x+1X1Y1Y17/21/202218主要内容为什么需要数据预处理数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结7/21/202219数据集成数据集成的概念将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括：多个数据库、多维数据库和一般的文件数据集
8、成也是数据仓库建设中的一个重要问题数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义冗余数据的处理检测和解决数值冲突对于现实世界中的同一实体，来自于不同数据源的属性值可能不同主要原因：不同的数据表示、度量单位、编码方式以及语义的不同7/21/202220数据集成数据集成的概念将多个数据源中的数据结合起来存放在一个一致的数据存储中数据源包括：多个数据库、多维数据库和一般的文件数据集成也是数据仓库建设中的一个重要问题数据集成的内容模式集成利用数据库和数据仓库的元数据信息主要工作是识别现实世界中的实体定义冗余数据的处理检测和解决数值
9、冲突对于现实世界中的同一实体，来自于不同数据源的属性值可能不同主要原因：不同的数据表示、度量单位、编码方式以及语义的不同7/21/202221模式集成数据类型冲突性别：string(Male、Female)、Char（M、F）、Interger（0、1）日期：Date、DateTime、String 数据标签冲突：解决同名异义、异名同义学生成绩、分数度量单位冲突学生成绩百分制：100 0 五分制：A、B、C、D、E 字符表示：优、良、及格、不及格概念不清最近交易额：前一个小时、昨天、本周、本月？聚集冲突：根源在于表结构的设计 7/21/202222冗余数据的处理从多个数据源中抽
10、取不同的数据，容易导致数据的冗余不同的属性在不同的数据源中是不同的命名方式有些属性可以从其它属性中导出，例如：销售额单价销售量有些冗余可以通过相关分析检测到其中：n是元组的个数，和分别是A和B的平均值，和分别是A和B的标准差元组级的“重复”，也是数据冗余的一个重要方面减少冗余数据，可以大大提高数据挖掘的性能BABAnBBAAr)1()()(,ABAB7/21/202223数据转换平滑处理:从数据中消除噪音数据聚集操作:对数据进行综合，类似于Data Cube的构建数据概化：构建概念层次数据规范化:将数据集中到一个较小的范围之中最大-最小规范化 z-score（零均值）规范
11、化小数范围规范化（01规范化）属性构造构造新的属性并添加到属性集中，以帮助数据挖掘7/21/202224数据转换：规范化最大-最小规范化对原始数据进行线性变换保持了原始数据值之间的关系当有新的输入，落在原数据区之外，该方法将面临“越界”错误受到孤立点的影响可能会比较大AAminnewmaxnew_,_AAAAAAminnewminnewmaxnewminmaxminvv_)_(7/21/202225数据转换：规范化（续）z-score（零均值）规范化属性基于平均值和标准差规范化当属性的最大值和最小值未知，或者孤立点左右了最大最小规范化时，该方法有效 0-1规范化（小数定标规范
12、化）通过移动属性的小数点位置进行规范化例如A的值为125，那么|A|=125，则j=3，有v=0.125。Avv jvv10Where j is the smallest integer such that Max(|)Reduced attribute set:A1,A4,A6YYYNNN7/21/202234数据压缩数据压缩：应用数据编码或变换，以便得到数据的归约或压缩表示无损压缩：原数据可以由压缩数据重新构造而不丢失任何信息字符串压缩是典型的无损压缩现在已经有许多很好的方法但是它们只允许有限的数据操作有损压缩：只能重新构造原数据的近似表示影像文件的压缩是典型的有损压缩典型
13、的方法：小波变换、主要成分分析7/21/202235数值归约数值归约：通过选择替代的、“较小”的数据表示形式来减少数据量有参的方法假设数据符合某些模型，通过评估模型参数，仅需要存储参数，不需要存储实际数据（孤立点也可能被存放）典型方法：对数线性模型，它估计离散的多维概率分布无参的方法不存在假想的模型典型方法:直方图、聚类和抽样7/21/202236直方图类似于分箱技术，是一种流行的数据归约方式将属性值划分为不相交的子集，或“桶”桶安放在水平轴上，而桶的高度（和面积）是该桶所代表的值的平均频率。每个桶只表示单个属性值，则称其为“单桶”。通常，“桶”表示给定属性的一个连续空间可以通过编
14、程，动态修改部分参数，进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount7/21/202237主要内容为什么需要数据预处理?数据清洗数据集成与转换数据归约数据离散化与概念层次的构建本章小结7/21/202238数据离散化和概念层次属性值分类枚举型有序的无序的连续型：如 Real类型数据离散化对于一个特定的连续属性，可以把属性值划分成若干区间，以区间值来代替实际数据值，以减少属性值的个数。概念层次利用高层的概念（如儿童、青年、中年、老年等）来代替低层的实际数据值（实
15、际年龄），以减少属性值的个数。7/21/202239数值数据的离散化和概念分层建立的方法分箱（Binning）直方图分析聚类分析的方法根据自然分类进行分割7/21/202240分箱方法：一种简单的离散化技术相同宽度（距离）数据分割将数据分成N等份，各个等份数据之间具有相同的距离如果 A 和 B 分别为属性值中的最大值和最小值，那么各个数据等份之间的距离为：W=(B-A)/N.异常点将会扮演很重要的角色倾斜的数据不能很好的解决相同深度（频率）数据分割将数据分成N等份，各个等份具有相同的数据个数。具有较好的可伸缩性适合于数据分类的情况7/21/202241离散化：直方图方法将
16、数据分割到若干个桶之中，用桶中的平均值（或求和等）来表示各个桶。可以通过编程，动态修改部分参数，进行合理构造。count51015202530123456789101-1011-2021-30510152025132515PricePricecount7/21/202242离散化：聚类分析方法将数据按照“类内最大相似度，类间最小相似度的原则”对数据进行有效聚类利用聚类的中心点来表示该类所包含的对象数据聚类将非常有效，但是必须保证数据中没有噪音数据7/21/202243按照自然分类进行数据分割利用3-4-5 法则对数字型数据分类，将数据分成若干个“自然”的区间：如果在所有数字的最高位覆盖
17、 3,6,7或9个不同的值，则将数据分成3段。3（1，1，1）6（2，2，2）7（2，3，2）9（3，3，3）如果在所有数字的最高位覆盖 2,4,8个不同的值，则将数据分成4 段。如果在所有数字的最高位覆盖 1,5,10个不同的值，则将数据分成 5 段。7/21/2022443-4-5 法则举例n例例1：包含数据：包含数据：101、110、203、222、305、315n方法：最高位包含方法：最高位包含3个值（个值（1、2、3）n分成分成100，200），），200，300），），300，400）三段）三段n例例2：包含数据：包含数据：101、110、103、422、405、415，400n方
18、法：最高位包含方法：最高位包含2个值（个值（1、4）n分成分成100，150），），150，200），400，450），450，500）四段）四段n例例3：包含数据：包含数据：101、210、203、322、305、415，500n方法：最高位包含方法：最高位包含5个值（个值（1、2、3、4、5）n分成分成100，200），），200，300），300，400），400，500），），500，600）五段五段7/21/202245分类数据的概念分层概念分层是由用户或专家对具有偏序关系的属性的一种层次关系的显式表示。也是一种数据分类的显式表示。概念层次的获得隐式存储于数据库中。如：地址。由专家显式给出。借助数据分析自动生成。概念层次的表示基于实例。如：freshman,.,seniorundergraduate.；基于数据库表模式。如：address(city,province,country)。基于规则。如：good(x)undergraduate(x)gpa(x)3.5。7/21/202246概念层次树举例概念层次树将大大减少挖掘数据的数据量。countryprovince_or_ statecitystreet15 distinct values65 distinct values3567 distinct values674,339 distinct values

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据挖掘的清洗-PPT课件.ppt
链接地址：https://www.163wenku.com/p-3539452.html

三亚风情

内容提供者

实名认证

联系作者