书签 分享 收藏 举报 版权申诉 / 37
上传文档赚钱

类型数据挖掘之基本流程课件.pptx

  • 上传人(卖家):ziliao2023
  • 文档编号:5779662
  • 上传时间:2023-05-08
  • 格式:PPTX
  • 页数:37
  • 大小:1.87MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《数据挖掘之基本流程课件.pptx》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 挖掘 基本 流程 课件
    资源描述:

    1、1.什么是数据挖掘?2.数据挖掘的基本方法?1内容回顾数据挖掘(英语:数据挖掘(英语:Data miningData mining),又译为资料探勘、数据采矿。它是数据),又译为资料探勘、数据采矿。它是数据库知识发现(英语:库知识发现(英语:Knowledge-Discovery in DatabasesKnowledge-Discovery in Databases,简称:,简称:KDD)KDD)中中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中的一个步骤。数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程信息的过程。(a)根据性别划分公司的顾客。(b)根据可赢

    2、利性划分公司的顾客。(c)预测投一对骰子的结果。(d)使用历史记录预测某公司未来的股票价格。2下列每项活动是否是数据挖掘任务?简单陈述你的理由?理解什么是KDD(知识发现)与KDD的基本流程;了解CRISP DM的含义与基本流程;了解数据挖掘的基本流程;理解并掌握使用SPSS Modeler进行数据挖掘的基本方法;3内容要点4KDD(Knowledge Discovery in Database)-知识发现知识发现知识发现是从数据集中识别出有效的、新颖的、潜在有用的,以及最终可理解的模式的非平凡过程。1.什么是知识?2.知识发现的概念描述!概念规律模式规则约束5 知识发现过程数据集变换后数据预

    3、处理数据 目标数据选取抽样变换预处理知识数据挖掘解释评价抽取的信息可视化可视化知识发现过程示意图知识发现过程示意图数据准备数据挖掘结果表达与解释选择算法主要考虑两个因素:一是尽量选取与数据特征相关的算法二是用户或实际运行系统的要求。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于采掘的数据的质量和数量6知识发现的任务知识发现的任务数据总结概念描述分类与预测聚类分析关联分析异常分析建模7一、数据总结数据总结的目的:对数据进行浓缩,给出它的紧凑描述数据总结的方法:传统的也是最简单的方法是对数据库的各个字段求和值、平均值、方差值等统计值,或者用直方图、饼状图等图形方式表示

    4、 8二、概念描述一个对含有大量数据的数据集合进行概述性的总结并获得简明、准确的描述,这种描述就称为概念描述(concept description)。例子:一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出(我校)讲师概念描述。提取信息提取信息总结算法总结算法概要总结概要总结概念描述概念描述62%(age24)9三、分类与预测分类:就是找出一组能够描述数据集合典型特征的模型(或函数),以便能够分类识别未知数据的归属或类别(class),即将未知事例映射到某种离散类别之一。分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户的信用等级是属于A级、B级还是

    5、C级。10四、聚类分析聚类分析(clustering analysis)中,首先需要根据“各聚集(clusters)内部数据对象间的相似度最大化;而各聚集(clusters)对象间相似度最小化”的基本聚类分析原则,以及度量数据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组(groups)。因此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同类别数据集,又可以通过分类学习11五、关联分析关联分析(association analysis):从给定的数据集发现频繁出现的项集模式知识(又称为关联

    6、规则,association rules)。关联分析广泛应用于市场营销,事务分析等应用领域。对于一个商场经理,或许更想知道哪些商品是常在一起购买,描述这样的情况的一条关联规则说明如下:12六、异类分析异类(outlier):那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类。示例:异类分析可以用于从大量商品购买记录中,依据各帐户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。13七、演化分析数据演化分析(evolution analysis):对随时间变化的数据对象的变化规律和趋势进行建模描述。示例:利用演化分析方法可对股市主要股票交易数据(时序数据,tim

    7、e-series data)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律请回忆知识发现的过程包括哪些?14实践一15 KDD过程可以概括为三部分:数据准备(Data Preparation)数据挖掘(Data Mining)结果的解释和评估(Interpretation&Evaluation)。数据目标数据预处理数据转换数据模式知识选择预处理转换数据挖掘模式评价模式评价模式评价数据挖掘数据挖掘数据准备数据准备 KDD 过程图数据选取(Data Selection):数据选取的目的是:确定发现任务的操作对象,即目标数据(Target Data),是根据用户的需要从原始

    8、数据库中抽取的一组数据数据预处理(Data Preprocessing):一般包括:消除噪声、推导计算缺值数据、消除重复记录、完成数据类型转换等。如把连续值型数据转换为离散型数据,以便于符号归纳;或是把离散型数据转换为连续值型数据,以便于神经网络计算。161.第一阶段 数据准备(又可分为 3 个子步骤)数据变换(Data Transformation):主要目的是:削减数据维数或降维即从初始特征中找出真正有用的特征以减少数据挖掘时要考虑的特征或变量个数。171.第一阶段 数据准备(又可分为 3 个子步骤)首先首先要确定挖掘的任务或目的,如分类、聚类或关联规则等。确定任务后确定任务后,就要决定使

    9、用的挖掘算法;选择实现算法有两个考虑因素:一是不同的数据有不同的特点;二是用户或实际运行系统的要求。有的用户可能希望获取描述型的、容易理解的知识;而有的只是希望获取预测准确度尽可能高的预测型知识。选择了挖掘算法后选择了挖掘算法后,就可以实施数据挖掘操作,获取有用的模式。18 2.第二阶段 数据挖掘数据挖掘阶段发现出来的模式,经评估:可能存在冗余或无关的模式,需将其剔除;也可能有不满足用户要求模式,则需要退回到发现过程前面的阶段,如重新选取数据、采用新的数据变换方法、设定新的参数值,甚至换一种挖掘算法等等。另外,KDD 由于最终是面向人类用户的,因此可能要对发现的模式进行可视化,或者把结果转换为

    10、用户易懂方式,如把分类决策树转换为 “if then”规则。19 3.第三阶段 结果的解释和评估数据挖掘仅仅是整个过程中的一个步骤。数据挖掘质量的好坏有两个影响要素:一是所采用的数据挖掘技术的有效性;二是用于挖掘的数据的质量和数量(数据量的大小)。如果选择了错误的数据或不适当的属性,或对数据进行了不适当的转换则挖掘的结果不会成功。整个挖掘过程是一个不断反馈的过程。比如,用户在挖掘途中发现选择的数据不太满意,或使用的技术产生不了期望的结果。这时,用户需要重复先前的过程,甚至从头重新开始。20数据挖掘仅仅是整个过程中的一个步骤。21数据挖掘的常见过程模型221 Sample数据取样2 Explor

    11、e数据特征探索、分析和予处理3 Modify问题明确化、数据调整和技术选择4Model模型的研发、知识的发现5Assess模型和知识的综合解释和评价23评价需求Assess存取数据Access 完备分析Analyze模型演示Act结果展现Automate跨行业数据挖掘标准过程(CRISPDM)定位是面向行业、工具导向、面向应用适用于大型工业和商业实践的一般标准24CRISP DM251:business understanding:即商业理即商业理解解.在第一个阶段我们必须从商业的角在第一个阶段我们必须从商业的角度上面了解项目的要求和最终目的是什度上面了解项目的要求和最终目的是什么么.并将这些

    12、目的与数据挖掘的定义以并将这些目的与数据挖掘的定义以及结果结合起来及结果结合起来.2.data understanding:数数据的理解以及收集据的理解以及收集,对可用对可用的数据进行评估的数据进行评估.3:data preparation:数据数据的准备的准备,对可用的原始数据对可用的原始数据进行一系列的组织以及清进行一系列的组织以及清洗洗,使之达到建模需求使之达到建模需求.4:modeling:即应用数据挖即应用数据挖掘工具建立模型掘工具建立模型.5:evaluation:对建立的模对建立的模型进行评估型进行评估,重点具体考虑重点具体考虑得出的结果是否符合第一得出的结果是否符合第一步的商业

    13、目的步的商业目的.6:deployment:部署部署,即将即将其发现的结果以及过程组其发现的结果以及过程组织成为可读文本形式织成为可读文本形式26CRISP-DM商业理解27CRISP-DM数据理解28CRISP-DM数据准备29CRISP-DM建立模型30CRISP-DM模型评估31CRISP-DM结果发布32SPSS Modeler用户界面数据流区域工具栏 菜单栏 选项板区节点数据流,输出和模型管理器项目窗口参考书中33页习题指导从DRUG.txt文件的数据为以往有大批患有同种疾病的不同病人,服用五种药物中的一种(drugA,drugB,drugC,drugX,drugY)之后取得了同样的治疗效果。案例数据是随机选择挑选的部分病人服用药物前的基本临床检查数据,包括:血压(BP,分为高血压HIGH,正常NORMAL,低血压LOW)、胆固醇(Cholesterol 分为正常NORMAL和高胆固醇HIGH)、唾液中钠元素(Na)和钾元素(K)含量、病人年龄(Age)、性别(Sex,包括男M和女F)等。现在要利用数据挖掘发现以往药物处方试用的规律,给出不同临床特征病人更适合服用那种药物的建议,为未来医生开具处方提供参考。33SPSS Modeler数据挖掘基本过程34结果数据流如下图所示35挖掘结果如下所示36分析结果如图所示

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:数据挖掘之基本流程课件.pptx
    链接地址:https://www.163wenku.com/p-5779662.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库