数据质量与信息质量综述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据质量与信息质量综述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 质量 信息 综述 课件
- 资源描述:
-
1、数据质量与信息质量12456数据质量与信息质量数据质量的评价方法TDQM循环3质量信息的内容和类别大数据拓展数据与信息数据与信息 数据是客观记录事物的可以鉴别的符号,包括数据是客观记录事物的可以鉴别的符号,包括文字、数文字、数字、声音、图像字、声音、图像等,具有客观性,是描述一个现象的原始事等,具有客观性,是描述一个现象的原始事实,例如温度,价格。实,例如温度,价格。信息是以适合于通信、存储或处理的形式来表示的信息是以适合于通信、存储或处理的形式来表示的知识知识或或消息消息,是通过对原始信息加工,产生明确、更容易理解的,是通过对原始信息加工,产生明确、更容易理解的知识或内容,是在特定背景下有特
2、定含义的数据。知识或内容,是在特定背景下有特定含义的数据。数据与信息区别 数据是信息的载体,信息是加工后的数数据是信息的载体,信息是加工后的数据。据。数据本身对我们来说并没有实际的数据本身对我们来说并没有实际的意义,但通过处理、分析、解读、综合之意义,但通过处理、分析、解读、综合之后,就会获得后,就会获得可理解的、有价值的可理解的、有价值的信息。信息。数据质量与信息质量来源来源数据质量技术角度准确性依附产品质量大批量数据数据库技术基于数据库的有效的测量、分析和改进早期20世纪70年代至今关注数据数据语义内容信息产生的速度信息社会信息质量良莠不齐影响组织运作信息质量数据质量和信息质量的联系 从数
3、据的产生到信息系统之间的过程是数从数据的产生到信息系统之间的过程是数据质量的问题,从信息系统到用户之间的据质量的问题,从信息系统到用户之间的过程是信息质量的问题过程是信息质量的问题 信息质量是在数据质量基础上得信息质量是在数据质量基础上得到的,包含了数据质量,数据质量的到的,包含了数据质量,数据质量的好坏在一定程度上决定了信息的质量。好坏在一定程度上决定了信息的质量。1.1.前后过程的关系前后过程的关系2.2.包含关系包含关系数据质量和信息质量的区别(1)数据质量和信息质量所要数据质量和信息质量所要解决问题的侧重点解决问题的侧重点不同不同(2)数据质量和信息质量数据质量和信息质量关注的对象关注
4、的对象不同不同数据质量和信息质量的区别数据质量是面向系统的,信息质量的研究对象范围更广泛,不仅包括数数据质量是面向系统的,信息质量的研究对象范围更广泛,不仅包括数据质量的内容,还注重信息的内容特征。据质量的内容,还注重信息的内容特征。(3)数据质量和信息质量所数据质量和信息质量所反映的质量观念反映的质量观念不同不同数据质量:数据质量:符合性符合性 数据生产者数据生产者数据管理者数据管理者信息用户信息用户”,是一种任务驱动的管理方,是一种任务驱动的管理方式。式。信息质量:信息质量:适用性适用性 “信息用户信息用户信息管理者信息管理者数据生产者数据生产者”,将用户的质量要,将用户的质量要求传递到求
5、传递到“数据生产者数据生产者”。数据质量与信息质量管理产品观 把数据或信息当做具有生产把数据或信息当做具有生产过程的产品这一观点是理查德过程的产品这一观点是理查德.王在王在19981998年就已经提出的。年就已经提出的。管理信息类产品需要对信息的理解有根本的转变,管理信息类产品需要对信息的理解有根本的转变,需要遵循需要遵循 以下以下4 4个原则:个原则:1)1)理解顾客的信息需求理解顾客的信息需求 2)2)把信息当成明确界定的产品来管理把信息当成明确界定的产品来管理 3)3)把信息当成具有生命周期的产品来管理把信息当成具有生命周期的产品来管理 4)4)由专门的信息产品管理者来管理信息产品由专门
6、的信息产品管理者来管理信息产品数据质量和信息质量主要研究的内容数据质量的研究主要围绕两个方面展开:数据质量的研究主要围绕两个方面展开:(1)数据质量的评估和监控)数据质量的评估和监控(2)从技术的角度如何保证和提高数据质量。)从技术的角度如何保证和提高数据质量。数据质量和信息质量的评价及其改进方法 数据数据/信息质量评价包括数据、相关业务记录和报告信息质量评价包括数据、相关业务记录和报告系统以及涉及到收集、存储和使用组织数据或信息的业系统以及涉及到收集、存储和使用组织数据或信息的业务流程。务流程。数据数据/信息质量的评价技术主要有三种:信息质量的评价技术主要有三种:1数据数据/信息质量调查信息
7、质量调查2可量化数据可量化数据/信息质量指标信息质量指标3数据数据/信息完整性评价。信息完整性评价。数据质量的评估和监控 数数据质量评估的核心在于如何具体地评估各个维度,据质量评估的核心在于如何具体地评估各个维度,目前方法主要分成两类:定性的策略和定量的策略。目前方法主要分成两类:定性的策略和定量的策略。对数据质量可从若干个维度进行分析:对数据质量可从若干个维度进行分析:(1)准)准确性确性(2)完整性完整性(3)一致性一致性(4)最小性最小性(5)(6)可信度()可信度(7)及时性()及时性(8)易获取性。)易获取性。数据质量提高策略 人们常常抱怨人们常常抱怨“数据丰富,信息贫乏数据丰富,信
8、息贫乏”。一个原因是缺乏有效的数据分析技术,另一个重要原因则是一个原因是缺乏有效的数据分析技术,另一个重要原因则是数据质量不高,如数据残缺不全、数据不一致、数据重复等,数据质量不高,如数据残缺不全、数据不一致、数据重复等,导致数据不能有效地被利用。导致数据不能有效地被利用。原因:原因:如何提高?如何提高?数据质量提高主要分两个角度:数据质量提高主要分两个角度:一类是从预防的角度,即在数据生命周期的任何一个阶一类是从预防的角度,即在数据生命周期的任何一个阶段,都有严格的数据规划和约束来防止脏数据的产生。段,都有严格的数据规划和约束来防止脏数据的产生。另一类是事后诊断,即由于数据的演化和集中,会有
9、脏另一类是事后诊断,即由于数据的演化和集中,会有脏数据涌现出来,需采用特定的算法检测出现的脏数据。数据涌现出来,需采用特定的算法检测出现的脏数据。数据质量提高技术数据清洗 数据重复对象检测、确实数据处理、数据重复对象检测、确实数据处理、异常数据检验、逻辑错误检验、不一致异常数据检验、逻辑错误检验、不一致数据处理等。数据处理等。数据清洗主要研究如何检测数据清洗主要研究如何检测并消除数据中的错误和不一致,并消除数据中的错误和不一致,以提高数据质量。以提高数据质量。(一)重复对象检验(一)重复对象检验主要研究两个方面:主要研究两个方面:1、关系数据库数据的重复记录检验。、关系数据库数据的重复记录检验
10、。2、XML重复元素检测。重复元素检测。(二)缺失数据处理(二)缺失数据处理主要处理方法:主要处理方法:1、单一填补法(平均值、中间数填补法、回归填补法、最大期望填补法)、单一填补法(平均值、中间数填补法、回归填补法、最大期望填补法)2、多重填补法、多重填补法(趋势得分法、(趋势得分法、PMM)(三)异常数据检测(三)异常数据检测 数据审计的方法,又称数据质量挖掘。数据审计的方法,又称数据质量挖掘。(四)逻辑数据检测(四)逻辑数据检测主要是数据编辑修正。主要是数据编辑修正。(五)不一致数据处理(五)不一致数据处理排序、融合和依据规则的方式。排序、融合和依据规则的方式。数据质量的保证和提高遵循的
展开阅读全文