商业分析第7章-商业数据挖掘方法课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《商业分析第7章-商业数据挖掘方法课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商业 分析 数据 挖掘 方法 课件
- 资源描述:
-
1、-商业商业数据的分析、挖掘和应用数据的分析、挖掘和应用华东师范大学出版社华东师范大学出版社l 数据挖掘概论l 决策树l 关联规则l 聚类分析l产生l概念l技术及过程l应用随着世界信息技术的迅猛发展,信息量也呈几何指数增长。特别是随着云时代的来临,海量数据发展到大数据(Big Data)已日益明显,现在许多单位与组织在日常运营中生成、累积的各种数据,规模是如此庞大,以至于不能用G或T来衡量。例如,一天之中,互联网产生的全部内容可以刻满1.6亿多张DVD;发出的邮件有2940亿封之多(相当于美国两年的纸质信件数量);发出的社区帖子达200万个(相当于时代杂志770年的文字量);卖出的手机为37.8
2、万台,高于全球每天出生的婴儿数量37.1万(2011年数据)如何从巨量、复杂的数据中获取有用的信息,成为了信息技术研究领域的热门课题。在这样的背景下,数据挖掘技术诞生并成为了近年来的研究热点。机器学习、数据库技术和数理统计是数据挖掘的三个技术支柱。机器学习数据库技术数理统计从技术角度看:数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。从商业角度看:按企业既定业务目标,对大量的企业数据进行探索和分析,揭示隐藏的、未知的或验证已知的规律性,并进一步将其模型化的先进有效的方法。数据
3、挖掘是从海量数据中提取隐含在其中的有用信息和知识的过程。它可以帮助企业对数据进行微观、中观乃至宏观的统计、分析、综合和推理,从而利用已有数据预测未来,帮助企业赢得竞争优势。数据挖掘任务主要有很多种,常见的有监督学习(或称为分类学习)、无监督学习(或称为聚类分析)、关联规则挖掘、预测、时序挖掘和偏差分析等等。l分类学习l聚类分析l关联规则l预测l时序模式l偏差分析一般来说,数据挖掘需要经历以下过程:确定挖掘对象(理解研究的业务领域)、收集数据(理解业务领域中的数据属性)、数据预处理(对获得的数据进行清洗等各种处理)、数据挖掘(用数据挖掘算法和模型来进行数据挖掘)和信息解释(对得到的数据挖掘模型进
4、行评估,评估有效后再在实际环境中使用),在数据挖掘过程中如能配以可视化的方法,则可大幅度提高效果。图7-1.数据挖掘过程数据挖掘工具目前国际上广泛应用的数据挖掘工具有很多lSAS Enterprise Miner lSPSS公司的Clementine(被IBM公司收购后改名为Modeler)lSQL Sever中的数据挖掘模块lWaikato大学开发的Weka平台lIBM公司的Intelligent Minerl开源软件R语言数据挖掘应用场景 数据挖掘在商业分析领域的一些应用如下:l金融领域l营销领域l电子政务l电信领域l工业生产l生物和医学数据挖掘应用场景金融领域l客户信用等级评估l客户透支
5、分析l客户利润分析l客户消费行为分析 l客户消费异常行为分析l定义l分类与作用l常用算法l剪枝理解什么是决策树,决策树有什么作用之前,我们先给出一个决策树的基本结构。它的形状是一棵倒置的树,包括节点和分支。有三种类型的节点:父节点、内部节点和叶节点。图7-2.决策树示意图决策树(Decision Tree)是一种以实例为基础的归纳学习算法,是一种从无次序、无规则的训练样本集中推理出决策树表示形式的分类规则的方法,它提供了一种展示类似在什么条件下会得到什么值这类规则的方法。工作过程:图7-3.决策树工作过程决策树主要应用于分类预测。分类预测的结果有定性和定量两种。例如,预测天气,定性有下雨或不下
6、雨;定量则是下多少雨,具体的数值。在实际应用中,我们将定性的分类预测称为分类,用来确定类别属性;定量的分类预测成为预测,用来预测具体的数值。分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类模型(也常常称作分类器),该模型能把未知类别的样本映射到给定类别中的某一个。因此,决策树可以分为两类:分类决策树,简称分类树,实现对分类型输出变量的分类;回归决策树,简称回归树,完成对数值型输出变量的预测。决策树的两大核心问题:l决策树的生长:在样本数据中选择哪一个属性作为根节点,然后如何分支,如何选择内部节点,直到生长出树叶,即到达叶节点,这一系列过程可称为决策树的分枝准则,
7、即具体算法;l决策树的剪枝:防止决策树生长过于茂盛,无法适应实际应用的需要。决策树常用算法:l基于信息论的方法:nID系列算法nC4.5nC5.0l最小GINI指标的方法:l CART l SLIQ lSPRINT决策树剪枝方法:l预修剪(Pre-Pruning)l后修剪(Post-Pruning)决策树常用算法ID3算法 1986年,J.R.Quinlan提出了ID3(Iterative Dichotomizer)算法。该算法是以信息论为基础,运用信息熵理论,采用自顶向下的贪心搜索算法。其核心思想是在决策树中各级节点上选择分裂属性。用信息增益作为属性选择的标准,使每个非叶子节点测试时,能获得
8、关于被测试例子最大的类别信息。使用该属性将训练样本集分成子集后,系统的信息熵值最小。决策树常用算法ID3算法 信息熵与信息增益 信息论之父申农(C.E.Shannonm)把信息中排除了冗余后的平均信息量称为“信息熵”,并给出了计算信息熵的数学表达式,他把信息熵定义为离散随机事件的出现概率。总而言之,信息熵的基本作用就是消除人们对事物的不确定性。ID3算法根据信息论,采用划分后样本集的不确定性作为衡量划分好坏的标准,用信息增益度量,信息增益值越大,不确定性越小。因此,算法在每个非叶子节点选择信息增益最大的属性作为分裂属性。24 n=16n=16n n1 1=4=4I(16,4)=-I(16,4)
9、=-(4/16)(4/16)*loglog2 2(4/16)+(12/16)(4/16)+(12/16)*loglog2 2(12/16)=0.8113(12/16)=0.8113E(E(年齡年齡)=(6/16)=(6/16)*I(6,1)+(10/16)I(6,1)+(10/16)*I(10,3)=I(10,3)=0.79460.7946Gain(Gain(年齡年齡)=I(16,4)-E()=I(16,4)-E(年齡年齡)=0.0167)=0.0167nGain(Gain(年齡年齡)=0.0167)=0.0167nGain(Gain(性別性別)=0.0972)=0.0972nGain(Gai
10、n(家庭所得家庭所得)=0.0177)=0.0177nMax:Max:作為第一個分類依據作為第一個分類依據图7-4a.ID3工作过程示意图a25nGain(家庭所得)=0.688I(7,3)=-(3/7)*log2(3/7)+(4/7)*log2(4/7)=0.9852nGain(年齡)=0.9852nGain(年齡)=0.2222I(9,1)=-(1/9)*log2(1/9)+(8/9)*log2(8/9)=0.5032nGain(家庭所得)=0.5032图7-4b.ID3工作过程示意图b26分類規則IF IF 性別性別=Female AND=Female AND 家庭所得家庭所得=低所得低
11、所得 THEN THEN 購買購買RVRV房車房車=否否IF IF 性別性別=Female AND=Female AND 家庭所得家庭所得=小康小康 THEN THEN 購買購買RVRV房車房車=否否IF IF 性別性別=Female AND=Female AND 家庭所得家庭所得=高所得高所得 THEN THEN 購買購買RVRV房車房車=是是IF IF 性別性別=Male AND=Male AND 年齡年齡35 35 THEN THEN 購買購買RVRV房車房車=否否IF IF 性別性別=Male AND=Male AND 年齡年齡35 35 THEN THEN 購買購買RVRV房車房車=
12、是是n資料nDecision Tree图7-4c.ID3工作过程示意图c决策树常用算法C5.0算法 C4.5算法在ID3算法的基础上进行了改进,增加了对连续属性的离散型的处理。对于预测变量的缺值处理、剪枝技术、派生规则等方面作了较大改进,既适合于分类问题,又适合于回归问题。而C5.0则是在C4.5的基础上改进了执行效率和内存使用,应用于大数据集的分类算法。它采用Boosting方式来提高模型准确率。决策树是用样本的属性作为结点,用属性的取值作为分枝的树结构的。属性的度量标准有很多,C5.0采用信息增益率作为属性的度量标准。决策树常用算法C5.0算法(1)信息增益率 在1993年JRQuinla
13、n提出信息增益率。信息增益率克服了在计算信息增益时偏向于选择取值较多的属性的缺点,能够在树的生成中或完成后对树进行剪枝。信息增益率的计算公式如下式:其中,是属性A的信息熵。决策树常用算法C5.0算法(2)Boosting技术 Boosting是一种提高任意给定学习算法准确度的方法。在C5.0中是用来提高模型准确度的。Boosting中最基本的是Adaboost算法,其他算法的主要原理都差不多,只是实现手段或者说采用的数学公式不同。Adaboost算法在现实生活中的经典使用领域就是用于人脸识别。图7-5.基于Adaboost算法的人脸识别示意图决策树常用算法CART算法它是由统计学家L.Brei
14、man,J.Friedman,R.Olshen和C.Stone在出版的著作分类与回归树中提出的一种产生二叉决策树分类模型的技术。它与前面Quinlan提出的ID系列算法和C4.5不同的是,它使用的属性度量标准是Gini指标。CARTCART与与C4.5/C5.0C4.5/C5.0算法的最大相异之处是其在每一个节点上都是采用二分算法的最大相异之处是其在每一个节点上都是采用二分法,也就是一次只能够有两个子节点,法,也就是一次只能够有两个子节点,C4.5/5.0C4.5/5.0则在每一个节点上可以则在每一个节点上可以产生不同数量的分枝。产生不同数量的分枝。CARTCART模型适用于目标变量为模型适用
15、于目标变量为连续型连续型和和类别型类别型的变量,如果目标变量是类的变量,如果目标变量是类别型变量,则可以使用分类树(别型变量,则可以使用分类树(classification treesclassification trees),目标变量是),目标变量是连续型的,则可以采用回归树(连续型的,则可以采用回归树(regression treesregression trees)。)。决策树常用算法CART算法Gini指标Gini指标主要是度量数据划分或训练数据集D的不纯度为主,系数值的属性作为测试属性,Gini值越小,表明样本的“纯净度”越高。Gini指标的计算公式如下式:其中Pi是类别Ci在D中出
16、现的概率。如果集合如果集合T T分成两部分分成两部分N1 and N2N1 and N2。则此分割的。则此分割的GiniGini就是就是:提供最小提供最小GinisplitGinisplit就被选择作为分割的标准就被选择作为分割的标准(对于每个属性都要经过所有可以的分割方法对于每个属性都要经过所有可以的分割方法)。)()()(2211TginiNNTginiNNTginisplitExample(Example(G Giniini)例:顾客数据库/训练数据D 例中,预测变量为buycomp,是否购买电脑。Ageincomestudentcred都为非连续变量。对于离散性属性,选择该属性产对于离
17、散性属性,选择该属性产生最小的生最小的Gini指标的子集作为它的分指标的子集作为它的分裂子集;对于连续值属性,必须考虑裂子集;对于连续值属性,必须考虑每个可能的分裂点,选择某一分裂点每个可能的分裂点,选择某一分裂点导致最小的导致最小的Gini指标。指标。样本D中:10(yes),4(no)D的不纯度为按下列公式:459.014414101)(22DGini类别出现的频率为 jpnjpjTginij,121)(为找出D中元组的分裂准则,需要计算每个属性的Gini指标。对age的二元分组可以有:取其中2个一组,剩下的一组同样对income的二元分组可以有:取其中2个一组,剩下的一组Example(
展开阅读全文