大数据导论思维第13章-大数据挖掘概述课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据导论思维第13章-大数据挖掘概述课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 导论 思维 13 挖掘 概述 课件
- 资源描述:
-
1、 大数据导论第十三章PART 01 什么是数据挖掘PART 02 数据挖掘与数据分析CONTENTS目录PART 03 大数据挖掘PART 04 数据挖掘算法的类型PART 05 分类和预测PART 06 聚类分析PART 07 关联分析PART 08 习题海量的数据只是数据,并不能直接为企业的决策服务。快速增长的海量数据,已经远远地超过了人们的理解能力,很难理解大堆数据中所蕴涵知识。数据挖掘的主要目的就是为了实现数据的价值。PART 01 什么是数据挖掘什么是数据挖掘数据挖掘是从大量的、不完全的、有噪声的、模糊的、随机的实际数据中,提取出蕴涵在其中的、人们事先不知道,但是具有潜在有用性的信息
2、和知识的过程。就具体应用而言,数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,这些模型和关系可以用来做出预测。从广义上来讲,数据、信息也是知识的表现形式,但是通常人们更把概念、规则、模式、规律和约束等看作知识,而把数据看作是形成知识的源泉。就好像从矿石中采矿或淘金一样,数据好比是矿石,数据挖掘的过程就是淘金的过程,而数据挖掘的结果(知识)就是金子。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。什么是知识数据挖掘是一种商业信息处理技术,其主要特点是对商务过程中产生的大量数据进行抽取、转
3、换、分析和其他模型化处理,从中提取辅助商业决策的知识。数据挖掘就是按照企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的规律性,并进一步将其模型化的先进有效的方法。数据挖掘的商业定义数据挖掘的价值类型数据挖掘就是在海量的数据中找到有价值的数据,为企业经营决策提供依据。价值通常包括:p 相关性p 趋势p 特征数据挖掘的价值类型p 相关性相关性分析是指对两个或多个具备相关性的变量元素进行分析,从而衡量两个变量因素的相关密切程度。常见的相关性包括:负相关 正相关 非线性相关 不相关数据挖掘的价值类型p 趋势是指将实际达到的结果,与不同时期财务报表中同类指标的历史数据进行比较,从而确
4、定财务状况,经营成果和现金流量的变化趋势和变化规律的一种分析方法。可以通过拆线图预测数据的走向和趋势数据挖掘的价值类型p 特征根据具体分析的内容寻找主要对象的特征。比如互联网类数据挖掘,就是需要找出用户的各方面特征对用户进行画像,根据不同的用户给用户群打相应的标签。常说的数据分析实际上是指狭义的数据分析,下面我们讨论(狭义)数据分析与数据挖掘的关系和区别。PART 02 数据挖掘与数据分析 数据分析数据分析是指根据分析的目的,用适当的统计分析方法及工具,对收集来的数据进行处理与分析,提取有价值的信息,发挥数据的作用。数据分析主要实现三大作用:p 现状分析p 原因分析p 预测分析(定量)数据分析
5、的思路:先做假设,然后通过数据分析来验证假设是否正确,从而得到相应的结论。数据分析数据分析一般都是得到一个指标统计量结果,如总和、平均值等,这些指标数据都需要与业务结合进行解读,才能发挥出数据的价值与作用。数据分析主要采取的方法有:p 对比分析p 分组分析p 交叉分析p 回归分析 数据挖掘数据挖掘是指从大量的数据中,通过统计学、人工智能、机器学习等方法,挖掘出未知的、且有价值的信息和知识的过程。数据挖掘的主要侧重解决四类问题p 分类p 聚类p 关联p 预测(定量、定性)数据挖掘的重点在于寻找未知的模式与规律。比如:啤酒与尿布、安全套与巧克力等 数据挖掘数据挖掘会输出模型或规则,并且可相应得到模
6、型得分或标签。模型得分如流失概率值、总和得分、相似度、预测值等;标签如高中低价值用户、流失与非流失、信用优良中差等。数据挖掘主要采用方法p 决策树p 神经网络p 关联规则p 聚类分析数据分析与数据挖掘的区别狭义的数据分析与数据挖掘的本质都是一样的,都是从数据里面发现关于业务的知识(有价值的信息)。但是它们所分析的数据、具体的作用、采用的方法和结果的呈现都不一样。n 数据不同p 一方面是数据量不同p 另一个方面是数量类型的不同数据分析与数据挖掘的区别n 作用不同p 数据挖掘与狭义数据分析的本质区别在于数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。n 采用的方法不同p 数据分析主要采用的是
7、统计学的技术。p 数据挖掘不仅仅需要统计学,还大量地使用了机器学习的算法包括聚类、分类、关联分析和预测等。数据分析与数据挖掘的区别n 数据的组织方式不同p 用于进行数据分析的数据一般以文件的形式或者单个数据库的方式组成。同时因为处理的数据量有限,需要使用抽样调查的方法选择数据。p 数据挖掘可以对全体数据进行处理。但是,海量数据不是传统数据库和文件系统就可以存储和管理的,所以数据挖掘必须建立在分布式文件系统、数据仓库和NoSQL数据库系统之上。随着大数据的兴起,用于大数据处理的相关技术也逐渐趋于成熟,而数据挖掘即是大数据应用过程中非常重要的环节。大数据的特点也决定了大数据挖掘技术与传统数据挖掘技
8、术有本质上的不同。PART 03 大数据挖掘大数据挖掘与传统的数据挖掘的区别大数据挖掘与传统的数据挖掘的主要区别体现在以下几个方面:n 从结构化数据到非结构化数据n 从抽样数据到全量数据n 从因果关系到相关性分析n 从依赖模型到依赖数据常用的数据挖掘算法一般分为两大类:有监督的学习无监督的学习PART 04 数据挖掘算法的类型数据挖掘算法的类型常用的数据挖掘算法一般分为两大类:有监督的学习和无监督的学习。p有监督的学习是基于归纳的学习,是通过对大量已知分类或输出结果的进行训练,建立分类或预测模型,用来分类未知实例或预测输出结果的未来值。p无监督学习方法在学习训练之前,没有预定义好分类的实例,数
9、据实例按照某种相似性度量方法,计算实例之间的相似程度,将最为相似的实例聚类在一组,再解释每组的含义,从中发现聚类的意义。数据挖掘算法的类型常用的数据挖掘算法如下:分类和预测是两种使用数据进行预测的方式,用来确定未来的结果。分类用于预测数据对象的离散类别,需要预测的属性值是离散的、无序的;预测则用于预测数据对象的连续取值,需要预测的属性值是连续的,而且是有序的。PART 05 分类和预测分类的基本概念分类(Classification)算法反映的是如何找出同类事物共同性质的特征型知识和不同事物之间的差异性特征知识。分类是通过有指导的学习训练建立分类模型,使用模型对未知分类的实例进行分类。分类输出
10、属性是离散的、无序的。分类过程分为两步:n 第一步是模型建立阶段,或者称为训练阶段;n 第二步是模型评估阶段。分类的基本概念n 训练阶段;训练阶段的目的是描述预先定义的数据类或概念集的分类模型。通常会从已知数据集中选取2/3的数据项作为训练集,1/3的数据项作为检验集。分类的基本概念n 评估阶段;使用第一阶段建立的模型对检验集数据元组进行分类,从而评估分类模型的预测准确率。预测的基本概念预测模型与分类模型类似,可以看作一个映射或者函数y=f(x),其中x是输入元组,输出y是连续的或有序的值。与分类算法不同的是,对于所需要预测的属性值是连续的,而且是有序的;分类所需要预测的属性值是离散的、无序的
11、。预测与分类的区别是分类是用来预测数据对象的类标记,而预测则是估计某些空缺或未知值。例如,预测明天上证指数的收盘价格是上涨还是下跌是分类;但是,如果要预测明天上证指数的收盘价格是多少就是预测。决策树的算法决策树是一个树状预测模型,它是由节点和有向边组成的层次结构。树中包含3种节点:根节点、内部节点、叶子节点。根节点:决策树有且只有一个,是全体训练数据的集合。内部节点:表示一个特征属性上的测试,每个分支代表这个特征属性在某个值域上的输出。叶子节点:每个叶子节点存放一个类别,也就是带有分类标签的数据集合即为实例所属的分类。决策树的算法决策树案例下图是预测一个人是否会购买电脑的决策树 假如有两位客户
12、:甲具备4个属性:年龄20;低收入;是学生;信用一般。乙具备4个属性:年龄60;低收入;不是学生;信用高。通过决策树判断甲、乙是否会购买电脑。客户甲是青少年,符合左边分枝;再判断是否学生,用户甲是学生,符合右边的分枝;用户甲落在“Yes”的叶子节点上。所以预测客户甲会购买电脑。客户乙是老年,符合右边分枝;再判断信用等级,客户乙信用高,符合左边的分枝;用户乙落在“No”的叶子节点上。所以预测客户乙不会购买电脑。决策树的算法决策的建立决策树算法很多,例如:ID3、C4.5、CART等。这些算法均采用自上而下的贪婪算法,每个内部节点选择分类效果最好的属性来分裂节点,可以分成两个或者更多的子节点,继续
13、此过程直到这棵决策树能够将全部的训练数据准确的分类,或所有属性都被用到为止。这个过程可以分为两步,特征选择和剪枝n 特征选择信息增益信息增益率基尼指数n 剪枝通过剪枝进行修复决策树的过拟合现象剪枝分为预先剪枝和后剪枝两种决策树的算法决策的建立特征选择,就是选择哪个属性作为判断节点。结果:通过特征的选择能把不同类别的数据集贴上对应类标签。目标:特征选择的目标使得分类后的数据集比较纯。p 如何衡量一个数据集纯度,这里就需要引入数据纯度函数。信息增益信息熵:表示不确定度。均匀分布时,不确定度最大,信息熵就最大。信息增益表示:分类前、后的数据集信息熵之间的差值。信息增益作用:衡量某个特征对分类结果的影
14、响大小决策树的算法决策的建立作用前信息熵计算公式:其中D表示训练数据集,c表示数据类别数,Pi表示类别i样本数量占所有样本的比例。对应数据集D,选择特征A作为决策树判断节点时,在特征A作用后的信息熵的为 Info(D),作用后的信息熵计算公式:信息增益表示数据集D在特征A的作用后,其信息熵减少的值。信息熵差值计算公式:信息增益决策树的算法决策的建立对于决策树节点最合适的特征选择,就是信息增益值最大的特征。也就是说,针对每个可以用来作为树节点的特征,计算如果采用该特征作为树节点作用后的信息增益。然后选择增益最大的那个特征作为下一个树节点。但是,如果以元组的唯一标识符ID充当一个属性,那么以属性值
15、ID进行分裂将导致大量划分,每个划分只包含一个元组。基于该划分对数据分类所需要的信息量为0。这样以该属性划分得到的信息增益最大,但是这种划分对分类显然是不合理的。信息增益决策树的算法决策的建立 信息增益率采用信息增益率来克服信息增益偏向具有大量值属性的问题。信息增益率使用分裂信息值将信息增益规范化。分裂信息值定义:该分裂信息值表示通过属性A将数据集D划分成n个部分所产生的信息量。信息增益率的定义为:决策树的算法决策的建立 基尼指数基尼(Gini)指数是另一种特征选择度量指标。Gini指数的计算公式为:其中c表示数据集中类别的数量,Pi 表示类别 i 样本数量占所有样本的比例。从该公式可以看出,
16、当数据集中数据混合的程度越高,基尼指数也就越高。当数据集D只有一种数据类型,那么基尼指数的值为最低0。如果选取的属性为A,那么分裂后的数据集D的基尼指数的计算公式为:决策树的算法决策的建立 基尼指数 其中k表示样本D被分为k个部分,数据集D分裂成为k个Dj数据集。对于特征选取,需要选择最小的分裂后的基尼指数。也可以用基尼指数增益值作为决策树选择特征的依据。基尼指数差值计算公式:在决策树选择特征时,应选择基尼指数增益值最大的特征,作为该节点分裂条件。决策树的算法决策的建立剪枝,修复决策树的过拟合现象过拟合现象:指在模型学习训练中,训练样本达到非常高的逼近精度,但对检验样本的逼近误差随着训练次数而
17、呈现出先下降后上升的现象。剪枝分为预先剪枝和后剪枝两种 预先剪枝在决策树生长过程中,使用一定条件加以限制,使得产生完全拟合的决策树之前就停止生长。后剪枝在决策树生长完成之后,按照自底向上的方式修剪决策树。u预先剪枝可能过早的终止决策树的生长,后剪枝一般能够产生更好的效果。但后剪枝在子树被剪掉后,决策树生长的一部分计算就被浪费了。决策树的算法决策建立举例 右表是小明同学1号到14号是否踢足球和天气的状态记录表No.AttributesClassOutlookTemperatureHumidityWindy1SunnyHotHighFalseN2SunnyHotHighTrueN3Overcast
18、HotHighFalseP4RainMildHighFalseP5RainCoolNormalFalseP6RainCoolNormalTrueN7OvercastCoolNormalTrueP8SunnyMildHighFalseN9SunnyCoolNormalFalseP10RainMildNormalFalseP11SunnyMildNormalTrueP12OvercastMildHighTrueP13OvercastHotNormalFalseP14RainMildHighTrueN 描述气候特征属性有四个:outlook、temperature、humidity、windy,而每
19、个特征属性的可取值为:outlook=sunny,overcast,rain,temperature=cool,mild,hot,humidity=high,normal,windy=true,false。假如15号天气情况是(Outlook:overcast,Temperature:cool,Humanity:high,Windy:false)时,预测小明是去踢足球还是不去?决策树的算法决策建立举例 下面介绍用ID3算法如何从表所给的训练集中构造出一棵能对训练集进行正确分类的判定树。总共有14个对象,其中9个为P类,也就是踢球;5个N类,也就是不踢球。作用前的信息熵计算公式为:作用前的信息熵
20、为:I(P,N)=-(9/14)log(9/14)-(5/14)log(5/14)=0.94 下面分别计算4个属性A1outlook,A2temperature,A3humidity,A4windy的信息熵。A1Outlook的取值为sunny,overcast,rain。训练集D中14个对象有5个是sunny,2个是P类,3个是N类,即P12,N1=3,所以 I(P1,N1)=-(2/5)log(2/5)-(3/5)log(3/5)=0.97决策树的算法决策建立举例 A2=Temperature的取值为=cool,mild,hot。训练集中14个对象有4个是cool,4个都是P类,即P2=4
21、,N2=0,所以I(P2,N2)=-(4/4)log(4/4)-(0/4)log(0/4)=0 同理可得,P33,N3=2,所以 I(P3,N3)=-(3/5)log(3/5)-(2/5)log(2/5)=0.97 作用后的信息熵计算公式为:所以,属性A1Outlook的期望信息要求为:E(A1)=(5/14)I(P1,N1)+(4/14)I(P2,N2)+(5/14)I(P3,N3)0.694 属性Outlook的信息增益为:Gain(Outlook)=I(P,N)-E(A1)=0.940-0.694=0.246 同理可得:Gain(Temperature)=0.029、Gain(Humid
22、ity)=0.151、Gain(Windy)=0.048决策树的算法决策建立举例II.递归建树分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求信息增益。(a)F1中除了Outlook以外剩余下的三个特征属性中求出Humidity的信息增益最大,以它为该分枝的根结点,再向下分枝。Humidity取high值全为N类,该分枝标记N,取值Normal全为P类,该分枝标记P。(b)在F3中,对剩余的三个特征属性求信息增益,得到Windy特征属性的信息增益最大,则以它为该分枝根结点。再向下分枝,它取true时全为N类,该分枝标记为N,取false时全为P类,该分枝标记P。这样就
23、得到决策树。朴素贝叶斯朴素贝叶斯(Naive Bayes,NB)基础思想是对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。比如:你在街上看到一个黑人,你十有八九会猜这个黑人是非洲来的,因为黑人中非洲人的比率最高。当然他也可能是美洲人或亚洲人。但在没有其它可用信息下,我们会选择条件概率最大的类别,这就是朴素贝叶斯的思想基础。朴素贝叶斯贝叶斯公式贝叶斯公式:P(B|A)=P(A|B)P(B)/P(A);换个表达形式:P(类别|特征)=P(特征|类别)P(类别)/P(特征)举例:X是一个待分类的数据元组,由n个属性描述;H是一个假设,例如X属于类
24、C。对于分类问题,我们想计算出概率P(H|X):即已知元组X的每个元素对应的属性值,求出X属于C类的概率。朴素贝叶斯贝叶斯公式例如:X的属性值为:age=25,income=$5000,H对应的假设是:X会买电脑。P(H|X):意思是在已知某客户信息age=25,income=$5000的条件下,该客户会买电脑的概率。P(H):意思是对于任何给定的客户信息,该客户会购买电脑的概率。P(X|H):意思是已知客户会买电脑,那么该客户的age=25,income=$5000的概率。P(X):意思是在所有的客户信息集合中,客户的age=25,income=$5000的概率。朴素贝叶斯分类算法的工作原理
25、朴素贝叶斯分类算法的工作原理 设D为样本训练集;每一个样本X是由n个属性值组成的,X=(x1,x2,xn);对应的属性集为A1,A2,A3An;假设有m个类标签:C1,C2,Cm。对于某待分类元X,朴素分类器会把P(Ci|X)(i=1,2,m)值最大的那个类标签Ci认为是X的类别,即朴素贝叶斯分类算法预测出X属于类Ci,当且仅当P(Ci|X)P(Cj|X)(1jm,ji)。因此我们的目标就是找出P(Ci|X)中的最大值。P(Ci|X)=p(X|Ci)P(Ci)/P(X)朴素贝叶斯分类算法的工作原理 如果n的值特别大,也就是说样本元组有很多属性,那么对于P(X|Ci)的计算会相当复杂。所以在朴素
展开阅读全文