《大数据》配套PPT之三:第3章-数据挖掘算法(课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据》配套PPT之三:第3章-数据挖掘算法(课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据 数据 配套 PPT 挖掘 算法 课件
- 资源描述:
-
1、全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用大数据B I G全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用第三章数据挖掘算法3.1数据挖掘概述3.2分类3.3聚类3.4关联规则3.5预测规模习题3.6数据挖掘算法综合应用of3923.1数据挖掘概述第三章 数据挖掘算法20世纪80年代末,数据挖掘(Data Mining,DM)提出。1989年,KDD 这个名词正式开始出现。1995年,“数据挖掘” 流传。从科学定义分析,数据挖掘是从大量的、有噪声的、不完全的、模糊和随机的数据中,提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。从技术角度分析,
2、数据挖掘就是利用一系列的相关算法和技术,从大数据中提取出行业或公司所需要的、有实际应用价值的知识的过程。知识表示形式可以是概念、规律、规则与模式等。准确地说,数据挖掘是整个知识发现流程中的一个具体步骤,也是知识发现过程中最重要的核心步骤。特征处理大数据的能力更强,且无须太专业的统计背景就可以使用数据挖掘工具数据挖掘的最终目的是方便企业终端用户使用,而并非给统计学家检测用的从使用与需求的角度上看,数据挖掘工具更符合企业界的需求of3933.1.1 数据挖掘概念3.1数据挖掘概述第三章 数据挖掘算法使用广义角度分类聚类估值预测关联规则数理基础角度机器学习方法统计方法神经网络方法决策树基于范例学习规
3、则归纳遗传算法回归分析 时间序列分析 关联分析聚类分析粗糙集探索性分析支持向量机最近邻分析模糊集前向神经网络自组织神经网络多层神经网络深度学习感知机可视化of3943.1.2 数据挖掘常用算法3.1数据挖掘概述第三章 数据挖掘算法1分类数据挖掘方法中的一种重要方法就是分类,在给定数据基础上构建分类函数或分类模型,该函数或模型能够把数据归类为给定类别中的某一种类别,这就是分类的概念。2聚类3关联规则4时间序列预测聚类也就是将抽象对象的集合分为相似对象组成的多个类的过程,聚类过程生成的簇称为一组数据对象的集合。关联规则属于数据挖掘算法中的一类重要方法,关联规则就是支持度与信任度分别满足用户给定阈值
4、的规则。时间序列预测法是一种历史引申预测法,也即将时间数列所反映的事件发展过程进行引申外推,预测发展趋势的一种方法。of3953.1.2 数据挖掘常用算法3.1数据挖掘概述第三章 数据挖掘算法按照数据挖掘的应用场景分类,数据挖掘的应用主要涉及通信、股票、金融、银行、交通、商品零售、生物医学、精确营销、地震预测、工业产品设计等领域,在这些领域众多数据挖掘方法均被广泛采用且衍生出各自独特的算法。1数据挖掘在电信行业的应用2数据挖掘在商业银行中的应用数据挖掘广泛应用在电信行业,可以帮助企业制定合理的服务与资费标准、防止欺诈、优惠政策,为公司决策者提供可靠的决策依据,为市场营销、客户服务、全网业务、经
5、营决策等提供有效的数据支撑,进一步完善了国内电信公司对省、市电信运营的指导,在业务运营中发挥重要的作用,从而为精细化运营提供技术与数据的基础。在美国银行业与金融服务领域数据挖掘技术的应用十分广泛,由于金融业务的分析与评估往往需要大数据的支撑,从中可以发现客户的信用评级与潜在客户等有价值的信息,可成功地预测客户的需求。of3963.1.3 数据挖掘应用场景3.1数据挖掘概述第三章 数据挖掘算法3数据挖掘在信息安全中的应用4数据挖掘在科学探索中的应用利用机器学习与数据挖掘等前沿技术与处理方法对入侵检测的数据进行自动分析,提取出尽可能多的隐藏安全信息,从中抽象出与安全有关的数据特征,从而能够发现未知
6、的入侵行为。数据挖掘技术可以建立一种具备自适应性、自动的、系统与良好扩展性的入侵检测系统,能够解决传统入侵检测系统适应性与扩展性较差的弱点,大幅度提高入侵检测系统的检测与响应的效能。近年来,数据挖掘技术已经开始逐步应用到科学探索研究中。例如,在生物学领域数据挖掘主要应用在分子生物学与基因工程的研究。 使用概率论模型对蛋白质序列进行多序列联配建模; 特定数据挖掘技术研究基因数据库搜索技术; 在被认为是人类征服顽疾的最有前途的攻关课题“DNA序列分析”过程中,由于DNA序列的构 成多种多样,数据挖掘技术的应用可以为发现疾病蕴藏的基因排列信息提供新方法。of3973.1.3 数据挖掘应用场景3.1数
7、据挖掘概述第三章 数据挖掘算法根据适用的范围,数据挖掘工具分为两类:专用挖掘工具和通用挖掘工具。专用数据挖掘工具针对某个特定领域的问题提供解决方案,在涉及算法的时候充分考虑数据、需求的特殊性。对任何应用领域,专业的统计研发人员都可以开发特定的数据挖掘工具。Weka软件SPSS软件Clementine软件RapidMiner软件其他数据挖掘软件SPSS采用类似Excel表格的方式输入与管理数据,数据接口较为通用,能方便地从其他数据库中读入数据。突出的特点是操作界面友好,且输出结果美观。Clementine提供出色、广泛的数据挖掘技术,确保用恰当的分析技术来处理相应的商业问题,得到最优的结果以应对
8、随时出现的问题。RapidMiner并不支持分析流程图方式,当包含的运算符比较多时就不容易查看;具有丰富的数据挖掘分析和算法功能,常用于解决各种商业关键问题。公开的数据挖掘工作平台,集成大量能承担数据挖掘任务的机器学习算法,包括对数据进行预处理、分类、回归、聚类、关联规则,以及交互式界面上的可视化。流行的数据挖掘软件还包括Orange、Knime、Keel与Tanagra等of3983.1.4 数据挖掘工具3.2分类3.1数据挖掘概述全国高校标准教材云计算姊妹篇,剖析大数据核心技术和实战应用第三章数据挖掘算法3.3聚类3.4关联规则3.5预测规模习题3.6数据挖掘算法综合应用of3993.2
9、分类分类是一种重要的数据分析形式,根据重要数据类的特征向量值及其他约束条件,构造分类函数或分类模型(分类器),目的是根据数据集的特点把未知类别的样本映射到给定类别中。数据分类过程主要包括两个步骤,即学习和分类。图3-1 建立一个模型第一步,建立一个模型第三章 数据挖掘算法of3910图3-2 使用模型进行分类3.2 分类第二步,使用模型进行分类第三章 数据挖掘算法of39113.2 分类分类分析在数据挖掘中是一项比较重要的任务,目前在商业上应用最多。分类的目的是从历史数据记录中自动推导出对给定数据的推广描述,从而学会一个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给
10、定类别中的某一个类中。为建立模型而被分析的数据元组形成训练数据集,由一组数据库记录或元组构成,每个元组是一个由有关字段(又称属性或特征)值组成的特征向量,此外,每一个训练样本都有一个预先定义的类别标记,由一个被称为类标签的属性确定。一个具体样本的形式可表示为 ,其中 表示字段值,C 表示类别1,nXXCnX分类又称为有监督的学习第三章 数据挖掘算法of39123.2 分类1条件概率数学基础知识事件A 在另外一个事件B 已经发生条件下的发生概率,称为在B 条件下A 的概率。表示为|P A B |P ABP A BP B2联合概率联合概率表示两个事件共同发生的概率。 A 与B 的联合概率表示为 、
11、 或者P AB,P A BP AB3贝叶斯定理贝叶斯定理用来描述两个条件概率之间的关系,例如, 与 。根据乘法法则 可以推导出贝叶斯公式:|P A B|P B A |P ABP A P B AP B P A B |P A P B AP A BP B第三章 数据挖掘算法of39133.2.1 贝叶斯决策与分类器3.2 分类4全概率公式全概率公式为概率论中的重要公式,它将对复杂事件A 的概率求解问题转化为在不同情况下发生的简单事件的概率的求和问题。设 构成一个完备事件组,即它们两两互不相容,其和为全集,且 ,则事件A的概率为:1,nBB01,iP Bin 111|nnniiiP AP A BP B
12、P A BP BP A BP B,贝叶斯分类的工作过程如下:(1)每个数据样本均是由一个n 维特征向量 表示,分别描述其n 个属性的具体取值。12,nx xxX12,nA AA第三章 数据挖掘算法of39143.2.1 贝叶斯决策与分类器3.2 分类4全概率公式(2)假设共有m 个不同类别, 。给定一个未知类别的数据样本X(没有类别号),分类器预测属于X 后验概率最大的那个类别。也就是说,朴素贝叶斯分类器将未知类别的样本X 归属到类别 ,当且仅当 。也就是 最大。其中类别 就称为最大后验概率的假设。根据贝叶斯公式可得:(3)由于 对于所有的类别均是相同的,因此,只需要 取最大即可。由于类别的先
13、验概率是未知的,则通常假定类别出现概率相同,即 。这样对于式(3-4)取最大转换成只需要求 最大。而类别的先验概率一般可以通过 公式进行估算,其中, 为训练样本集合中类别 的个数,s 为整个训练样本集合的大小。12,mC CCiC|,1,ijP CXP CXjm ji |iP CXiCP X|iiP X CP C12mP CP CP C(3-4) |iP X CiisPCsisiC第三章 数据挖掘算法of39153.2.1 贝叶斯决策与分类器3.2 分类4全概率公式(4)根据所给定包含多个属性的数据集,直接计算 的运算量非常大。为实现对的有效估算,朴素贝叶斯分类器通常都假设各类别是相互独立的,
展开阅读全文