数据挖掘之基本流程课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘之基本流程课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 基本 流程 课件
- 资源描述:
-
1、1.什么是数据挖掘?2.数据挖掘的基本方法?1内容回顾数据挖掘(英语:数据挖掘(英语:Data miningData mining),又译为资料探勘、数据采矿。它是数据),又译为资料探勘、数据采矿。它是数据库知识发现(英语:库知识发现(英语:Knowledge-Discovery in DatabasesKnowledge-Discovery in Databases,简称:,简称:KDD)KDD)中中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程信息的过程。(a)根据性别划分公司的顾客。(b)根据可赢
2、利性划分公司的顾客。(c)预测投一对骰子的结果。(d)使用历史记录预测某公司未来的股票价格。2下列每项活动是否是数据挖掘任务?简单陈述你的理由?理解什么是KDD(知识发现)与KDD的基本流程;了解CRISP DM的含义与基本流程;了解数据挖掘的基本流程;理解并掌握使用SPSS Modeler进行数据挖掘的基本方法;3内容要点4KDD(Knowledge Discovery in Database)-知识发现知识发现知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。1.什么是知识?2.知识发现的概念描述!概念规律模式规则约束5 知识发现过程数据集变换后数据预
3、处理数据 目标数据选取抽样变换预处理知识数据挖掘解释评价抽取的信息可视化可视化知识发现过程示意图知识发现过程示意图数据准备数据挖掘结果表达与解释选择算法主要考虑两个因素:一是尽量选取与数据特征相关的算法二是用户或实际运行系统的要求。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于采掘的数据的质量和数量6知识发现的任务知识发现的任务数据总结概念描述分类与预测聚类分析关联分析异常分析建模7一、数据总结数据总结的目的:对数据进行浓缩,给出它的紧凑描述数据总结的方法:传统的也是最简单的方法是对数据库的各个字段求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示
4、 8二、概念描述一个对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述(concept description)。例子:一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出(我校)讲师概念描述。提取信息提取信息总结算法总结算法概要总结概要总结概念描述概念描述62%(age24)9三、分类与预测分类:就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于A级、B级还是
5、C级。10四、聚类分析聚类分析(clustering analysis)中,首先需要根据“各聚集(clusters)内部数据对象间的相似度最大化;而各聚集(clusters)对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组(groups)。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集,又可以通过分类学习11五、关联分析关联分析(association analysis):从给定的数据集发现频繁出现的项集模式知识(又称为关联
6、规则,association rules)。关联分析广泛应用于市场营销,事务分析等应用领域。对于一个商场经理,或许更想知道哪些商品是常在一起购买,描述这样的情况的一条关联规则说明如下:12六、异类分析异类(outlier):那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类。示例:异类分析可以用于从大量商品购买记录中,依据各帐户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。13七、演化分析数据演化分析(evolution analysis):对随时间变化的数据对象的变化规律和趋势进行建模描述。示例:利用演化分析方法可对股市主要股票交易数据(时序数据,tim
展开阅读全文