数据挖掘与处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘与处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 处理 课件
- 资源描述:
-
1、数据挖掘与处理():理学院室理学院室第一章 数据科学与数据挖掘 数据科学 数据挖掘 数据科学 概述()信息化的本质:将现实世界中的事物以数据的形式存储到计算机主机中,即信息化是一个生产数据的过程。()数据爆炸():数据被快速大量地生产并存储在计算机系统中。()数据自然界():数据爆炸在计算机系统中形成数据自然界()。注:研究数据自然界是研究自然界()的一种有效方法。()数据学()或数据科学():研究数据自然界规律的理论、方法和技术。数据科学 数据能够输入到计算机中的任何内容。数据在物理上以字节()作为其大小的计量单位,一个字节为一个数据单位,数据物理存在于计算机系统中。对于数据自然界,计算机系
2、统是它的载体,数据是它的唯一存在。()数据原子():不可再分割的最小数据单位,即计算机系统所使用的基本字符集。例:数据注:数据原子一般为单字节字符,也有双字节字符。()数据对象():识别数据的基本单位,可命名,具有独立含义。注:()数据对象:由有限个数据项组成,有一个对象标识,其他为对象内容。()数据项():数据原子的有限集,用于描述数据对象的特性,可命名,可定义其数据类型但没有独立含义(即脱离数据对象单独讨论数据项是没有意义的)。数据科学()数据集():数据对象的集合。例:数据库注:()数据集是一个数据对象的有限集合;()一些无限的数据集(如:流数据)的数据在任何时刻都是有限的;()数据学通
3、常是处理有限数据集的。()元数据():描述数据的数据。表结构、变量、结构(,),数据库 (.,),(,),.。()数据工具():计算机系统中存储的能够运行的计算机程序或软件系统。例:杀毒软件、病毒程序注:()数据工具是一种特殊的数据对象;()数据工具通常用于处理数据但数据工具本身也是数据,可以被其他数据工具处理。数据科学 数据自然界()数据自然界:所有计算机系统中的数据构成了数据自然界。注:计算机系统是数据的载体,不是数据自然界的组成部分。()数据自然界特征:不为人控制;具有未知性、多样性和复杂性等自然界特征。注:()从个体上看,数据是可控的;从总体上看,数据不为人控制;()数据的含义未知,规
4、律未知,现实世界没有的未知;()数据类型:私人、企业、政府、公共等数据库;()组织形式:专用格式、通用格式、互联网等数据形式。数据科学 数据学()数据学:研究探索数据自然界奥秘的理论、方法和技术。注:()研究对象:数据自然界;()研究内容:数据的各种类型、状态、属性及变化形式和变化规律;()目的:揭示自然界和人类行为的现象与规律。注:()数据记录了宇宙和生命现象人文和社会。()寻找数据所含的规律,就是探索宇宙、生命、人类行为、社会发展的规律。数据科学()数据学的框架 数据科学注:()数据勘探:勘探数据集的结构(分析数据集的物理结构、逻辑结构)和总体特性(用抽样分析的方法发现数据集服从的分布、个
5、体性或群体性、是否有簇或关联规则)。()数据实验():验证自然界和数据自然界的假说和规律、模拟人文与社会行为、发现数据规律。数据实验通过实验的方式(实验对象、工具、方法和步骤、观察手段等),对数据进行实验,获得实验结果,通过观察实验结果对假说和预的规律进行验证。()数据伪装():将暴露在公众可及地方的自己的数据进行伪装,使得别人即使获得该数据也无法知道其数据含义。()数据辨伪():识别经过伪装的数据。数据科学注:()数据分类学():将数据分门别类,形成数据谱系和发展历史图谱。()数据感知():像感受大自然那样感受数据自然界,包含数据可视化、数据可听化、数据可嗅可触化等方法和技术。()专门领域的
6、数据学:针对具体领域和环境的数据学,即专门领域的数据学,即专门的理论、技术和方法。数据挖掘人类已进入一个崭新的信息时代,数据库中存储的数据量急剧膨胀,需要从海量数据库和大量繁杂信息中提取有价值的知识,进一步提高信息的利用率。产生了一个新的研究方向:基于数据库的知识发现及相应的数据挖掘理论和技术的研究。随着大数据库的建立和海量数据的不断涌现,必然提出对强有力的数据分析工具的迫切需求。但现实情况往往是“数据十分丰富,而信息相当贫乏。”快速增长的海量数据收集、存放在大型数据库中,没有强有力的工具,理解它们已经远远超出人的能力。因此,有人称之为:“数据坟墓”。由于专家系统工具过分依赖用户或专家人工地将
7、知识输入知识库中,而且分析结果往往带有偏差和错误,再加上耗时、费用高,故不可行。数据矿山数据矿山信息金块信息金块数据挖掘工具数据挖掘工具 数据挖掘大量信息带来方便也带来一大堆问题:信息过量,难以消化;信息真假难以辨识;信息安全难以保证;信息形式不一致,难以统一处理。数据爆炸但知识贫乏:随着数据库技术的迅速发展以及数据库管理系统的广泛应用,人们积累的数据越来越多。目前的数据库系统可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关系和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。进化阶段进化阶段商业问题商业问题支
8、持技术支持技术产品厂家产品厂家产品特点产品特点数据搜集数据搜集(年代年代)“过去五年中我过去五年中我的总收入是多少的总收入是多少?”计算机、磁带和磁盘计算机、磁带和磁盘提供历史性的、提供历史性的、静态的数据信息静态的数据信息数据访问数据访问(年代年代)“在新英格兰的在新英格兰的分部去年三月的分部去年三月的销售额是多少?销售额是多少?”关系数据库关系数据库()()结构化查询语言结构化查询语言()()在记录级提供历在记录级提供历史性的、动态数史性的、动态数据信息据信息数据仓库数据仓库决策支持决策支持(年代年代)“在新英格兰的在新英格兰的分部去年三月的分部去年三月的销售额是多少?销售额是多少?波士顿
9、据此可得波士顿据此可得出什么结论?出什么结论?”联机分析处理联机分析处理()()多维数据库多维数据库数据仓库数据仓库在各种层次上提在各种层次上提供回溯的、动态供回溯的、动态的数据信息的数据信息数据挖掘数据挖掘(正在流行)(正在流行)“下个月波士顿下个月波士顿的销售会怎么样的销售会怎么样?为什么?为什么?”高级算法高级算法多处理器计算机多处理器计算机海量数据库海量数据库其他初创公司其他初创公司提供预测性的信提供预测性的信息息 数据挖掘数据挖掘是多学科的产物数据挖掘数据库技术统计学高性能计算人工智能机器学习可视化数据挖掘的应用n电信:流失n银行:聚类(细分),交叉销售n百货公司超市:购物篮分析(关
10、联规则)n保险:细分,交叉销售,流失(原因分析)n信用卡:欺诈探测,细分n电子商务:网站日志分析n税务部门:偷漏税行为探测n警察机关:犯罪行为分析n医学:医疗保健英国电信需要发布一种新的产品,需要通过直邮的方式向客户推荐这种产品。使直邮的回应率提高了电信日用品零售商店需要准确的预测未来的商品销售量,降低库存成本。通过数据挖掘的方法使库存成本比原来减少了零售商店美国国内税务局需要提高对纳税人的服务水平。合理安排税务官的工作,为纳税人提供更迅捷、更准确的服务税务局银行n金融事务需要搜集和处理大量的数据,由于银行在金融领域的地位、工作性质、业务特点以及激烈的市场竞争决定了它对信息化、电子化比其它领域
11、有更迫切的要求。利用数据挖掘技术可以帮助银行产品开发部门描述客户以往的需求趋势,并预测未来。美国商业银行是发达国家商业银行的典范,许多地方值得我国学习和借鉴。数据挖掘在银行领域的应用n美国银行家协会()预测数据仓库和数据挖掘技术在美国商业银行的应用增长率是。n分析客户使用分销渠道的情况和分销渠道的容量;建立利润评测模型;客户关系优化;风险控制等n银行使用数据挖掘软件提高销售和定价金融产品的精确度,如家庭普通贷款。n美国银行使用数据挖掘工具,根据客户的消费模式预测何时为客户提供何种产品。汇丰银行需要对不断增长的客户群进行分类,对每种产品找出最有价值的客户。营销费用减少了银行 数据挖掘注:相近的术
12、语:数据库中的知识发现、知识挖掘、知识提取、数据融合。数据挖掘()从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。与之相似的概念称为知识发现。知识发现()是用数据库管理系统来存储数据,用机器学习的方法来分析数据,挖掘大量数据背后隐藏的知识,称为数据库中的知识发现。()定义 人们给下过很多定义,内涵也各不相同,目前公认的定义是由等人提出的。所谓基于数据库的知识发现()是指从大量数据中提取有效的、新颖的、潜在有用的、最终可被理解的模式的非平凡过程。数据挖掘 ()过程 是一个人机交互处理过程。该过程需要经历多个步骤,并
13、且很多决策需要由用户提供。从宏观上看,过程主要经由三个部分组成,即数据整理、数据挖掘和结果的解释评估。数据挖掘 数据挖掘数据清理筛选数据清理筛选数据数据目标数据目标数据预处理预处理及变换及变换变换后的数据变换后的数据数据挖掘数据挖掘解释评估解释评估 数据挖掘()知识发现()的步骤()数据准备:了解应用领域的有关情况。包括熟悉相关的知识背景,搞清用户需求。()数据选取:数据选取的目的是确定目标数据,根据用户的需要从原始数据库中选取相关数据或样本。在此过程中,将利用一些数据库操作对数据库进行相关处理。()数据预处理:对步骤中选出的数据进行再处理,检查数据的完整性及一致性,消除噪声及与数据挖掘无关的
14、冗余数据,根据时间序列和已知的变化情况,利用统计等方法填充丢失的数据。()数据变换:根据知识发现的任务对经过预处理的数据再处理,主要是通过投影或利用数据库的其它操作减少数据量。()确定目标:根据用户的要求,确定要发现的知识类型。()选择算法:根据步骤确定的任务,选择合适的知识发现算法,包括选取合适的模型和参数。()数据挖掘:这是整个过程中很重要的一个步骤。运用前面的选择算法,从数据库中提取用户感兴趣的知识,并以一定的方式表示出来。()模式解释:对在数据挖掘步骤中发现的模式(知识)进行解释。通过机器评估剔除冗余或无关模式,若模式不满足,再返回到前面某些处理步骤中反复提取。()知识评价:将发现的知
15、识以用户能了解的方式呈现给用户。其中也包括对知识一致性的检查,以确信本次发现的知识不会与以前发现的知识相抵触。数据挖掘数据挖掘的定义()数据挖掘:通过分析每个数据,从大量数据中寻找其规律的技术。注:数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。注:()数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;()发现的知识要可接受、可理解、可运用;()并不要求发现放之四海皆准的知识,仅支持特定的发现问题。数据挖掘()商业角度的定义商业角度的定义 定义:数据挖掘是一种新的商业信息处理技术,其定义
16、:数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。辅助商业决策的关键性数据。理解:数据挖掘可以描述为:按企业既定业务目标,理解:数据挖掘可以描述为:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。化的先进有效的方法。数据挖掘()数据挖掘与传统分析方法的
17、区别数据挖掘与传统分析方法的区别 注:注:()数据挖掘与传统的数据分析数据挖掘与传统的数据分析(如查询、报表、如查询、报表、联机应用分析联机应用分析)的本质区别是数据挖掘是在没有的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识明确假设的前提下去挖掘信息、发现知识.()数据挖掘所得到的信息应具有先未知,有效和数据挖掘所得到的信息应具有先未知,有效和可实用三个特征。可实用三个特征。()先前未知的信息是指该信息是预先未曾预料到先前未知的信息是指该信息是预先未曾预料到的,数据挖掘是要发现那些不能靠直觉发现的信的,数据挖掘是要发现那些不能靠直觉发现的信息或知识,甚至是违背直觉的信息或知识
展开阅读全文