《商业智能:方法与应用》课件第4章 数据挖掘.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《商业智能:方法与应用》课件第4章 数据挖掘.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商业智能:方法与应用 商业智能:方法与应用课件第4章 数据挖掘 商业 智能 方法 应用 课件 数据 挖掘
- 资源描述:
-
1、4.1 数据挖掘概述4.2 分类4.3 聚类目 录O N T E N T S数据挖掘概念与任务数据挖掘领域的经典算法分类的方法以决策树为例分类概述聚类分析概述聚类分析方法以K-Means算法为例4.4 关联分析关联分析概述关联分析算法以Apriori算法为例4.5 PageRank算法PageRank算法概述PageRank算法原理PageRank算法的应用4.1 数据挖掘概述数据挖掘概念与任务数据挖掘领域的经典算法数据挖掘概念与任务背景应用领域定义n 信息系统的广泛使用n 系统产生数据规模与复杂性的极速增长n 传统数据处理方式数据分析师充当数据与用户接口的产品已无法适应现代需要n 指通过特定
2、算法从大量的数据中揭示数据的模式特征或相互关系的过程,它是数据库知识发现(简称为KDD)过程的一个步骤。n 商业智能管理n 生产控制n 市场分析n 工程设计数据挖掘概念与任务01 回归使用一系列的现有数值确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,是一种预测性的建模技术。02 异常检测帮助识别不寻常的数据记录(离群点),这些不寻常的对象、事件或观测结果有可能是最值得特别关注的数据。03 分类根据已分类数据的特征建立模型对其他未经分类或是心得数据做预测的过程,是一种有监督的学习过程。04 聚类对数据记录分组,把相似的记录归集在一个簇(或类)中05 关联规则搜索变量之间的关系数据
3、挖掘区别:是否依赖于预先定义好的类数据挖掘概念与任务相同点不同点联系数据挖掘V.S.数据仓库都是商业智能的重要技术两者均是决策支持工具目标不同 数据仓库:为决策提供数据依据;数据挖掘:为决策提供逻辑依据;方法不同 数据仓库:搜集多个信息系统数据,整合并存放于专门储存空间;数据挖掘:在数据中寻找规律或发现新的知识;数据仓库 提供数据 数据挖掘数据挖掘V.S.OLAP均可用于发现信息背后的规律目标不同 OLAP:发现假设;数据挖掘:验证假设;方法不同 OLAP:先提出假设和数据验证任务,再验证正确性;数据挖掘:通过算法和工具探索结果 OLAP 数据挖掘数据挖掘V.S.KDD 数据知识发现(KDD)
4、是从数据集中识别出有效的、新颖的、有潜在价值的以及最终可理解的模式的非平凡过程,其核心环节是数据挖掘技术验证结果提供分析模式数据挖掘KDD数据挖掘概念与任务KDD流程图数据挖掘经典算法方法二方法一方法四方法三C4.5算法通过学习数据来建立决策树,是一种有监督的学习过程。它特点是用的是信息增益率帮助选择属性和进行剪枝,能够对非离散数据和不完整数据进行处理。K-Means算法是一种聚类算法,它把数据点到原型的某种距离作为优化的目标函数,通过迭代运算试图找到数据中自然聚类的中心。支持向量机(SVM)通过将向量映射到一个更高维的空间并构造一个超平面来分析数据和识别模式,用来做数据分类和回归分析,是一种
5、有监督的学习过程。Apriori算法一种挖掘关联规则的算法,其核心思想是通过候选集生成和检测两个阶段来挖掘频繁项集,找到数据之间的关联关系。数据挖掘经典算法方法六方法五方法八方法七最大期望算法(EM)是在概率模型中寻找参数最大似然估计或者最大后验估计的算法。该算法常用与机器学习和计算机视觉等领域的数据聚类分析。PageRank算法PageRank算法根据网页的外部链接和内部链接的数量和质量来衡量网页的价值。PageRank算法可以比较客观地体现网页的相关性和重要性。Adaboost算法该算法通过用同一个训练集多次训练不同的弱分类器,基于弱分类器的加权错误率更新权重向量,从而进行下一次迭代。多次
6、迭代后将各分类器融合起来,构成最后的决策分类器。K邻近算法算法的思路是:如果一个样本在特征空间中的k个最邻近的样本中的大多数属于某一个类别,则该样本也属于这个类别。该算法适用于类域的交叉或重叠较多的待分样本集。数据挖掘经典算法方法九方法十朴素贝叶斯以贝叶斯定理为基础,假设一个属性值对给定类的影响独立于其它属性的值,通过已有数据样本的统计规律预测未知类别样本的分类概率分类与回归(CART)是一种构建决策树的算法。CART算法假设决策树是二叉树,左右子树分别是取值为“是”和“否”的分支。通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布。4.2 分类 分类概述分类
7、方法以决策树为例分类概述分类定义分类模型n 分类是对现有数据进行学习,得到一个目标函数或规则f,把每个属性集x映射到一个预先定义的类标号y(即最终分为的几个类别)n分类是一种有监督的学习,根据不同的情况可以使用(朴素)贝叶斯、决策树、逻辑回归、KNN、SVM、神经网络、随机森林等算法来实现n 分类模型分类 描述性分类模型:获知哪些特征对哪些类别有决定性的作用 预测性分类模型:用于预测未知记录的类标号分类模型分类概述n 一个具体例子:根据表4-1所示,某银行借贷部门统计了10个客户目前的基本情况(属性集包括是否拥有房产、婚姻情况以及年收入),并已知这些客户是否有能力偿还债务。ID拥有房产(是/否
8、)婚姻情况(单身/已婚/离婚)年收入(单位:千元)可以偿还债务(是/否)1是单身125是2否已婚100是3否单身75否4是已婚120是5否离婚95是6否已婚60是7是离婚220是8否单身80否9否已婚75是10否单身90是分类概述If-then规则决策树If 拥有房产Then 可以偿还债务ElseIf 婚姻情况=已婚Then 可以偿还债务Else If 年收入=85Then 可以偿还债务Else 无法偿还债务End if可视化根据这些数据可以建立分类的判断标准如下:分类概述训练集数据训练集由类标号已知的记录组成,用于建立模型;描述性分类模型要求模型可以最大程度上符合训练集测试集由类标号未知的记
9、录组成,用于检验模型的泛化能力。测试集除了分类模型,建立其他有监督的模型算法时一般也是需要划分训练集和测试集。分类概述划分数据集进行模型的训练和测试 分类概述 二元分类问题的混淆矩阵n假设有一种罕见的病毒X,在人群中的感染率为0.01%(万分之一)。而目前已有仪器可以比较准确地化验出人体是否携带此病毒,其中病毒携带者被正确检验出来的概率为99.9%,非病毒携带者被正确排除的概率为99.99%。如果在人群中随机对一人进行检验,且检验结果为“病毒携带者”,试问此人确实为“病毒携带者”的概率有多大?为什么?分类概述二元分类问题的混淆矩阵 正确率:正确预测数除以预测总数,即(a+d)/(a+b+c+d
10、);错误率:错误预测数除以预测总数,即(b+c)/(a+b+c+d);精确率:正确预测为正类的样本数除以实际正类的数目,即 a/(a+c);召回率:正确预测为正类的样本数除以预测正类的数目,即a/(a+b)。评价指标 二元分类问题的混淆矩阵n分类模型的性能根据模型正确和错误预测的检验记录计数进行评估,这些计数存放在称作混淆矩阵(confusion matrix)的表格中。分类方法以决策树为例 二元分类问题的混淆矩阵n事例说明:本事例数据选自SPSS Moderler 中提供的示例数据(文件名为tree_credit.sav),包含客户基本信息和银行贷款历史数据等6个字段,共2646条数据。字段
11、类型定义如下表所示n分析目标:利用C5.0算法,建立决策树分类模型并进行评估,研究哪些因素显著影响用户性用的好坏,具体操作如下:字段标签测量值角色Credit_ratingCredit rating名义0,Bad、1,Good目标AgeAge度量24.12,31.8,43.03,.输入IncomeIncome level有序1,Low、2,Medium、3,High输入Credit_cardsNumber of credit cards名义1,Less than 5、2,5 or more输入EducationEducation名义1,High school、2,College输入Car_lo
12、ansCar loans名义1,None or 1、2,more than 2输入表4-3字段类型定义分类方法以决策树为例 首先导入源文件“tree_credit.sav”,然后设置数据类型,将“Cresit_rating”设置为输出变量,除“ID”以外的变量为输入变量。01 导入源文件并设置数据类型 将数据分为70%训练数据以及30%测试数据。根据训练集进行构建模型,在多次反复训练模型后,根据输入变量重要性的排序,并移除相对较不重要的变量。数据分区完成后,就完成了数据准备工作。02 对数据进行分区操作 分析节点中我们勾选重合矩阵选项,因此除了分析节点原本就提供的正确错误率比较,可进一步了解实
13、际值与预测值的比较矩阵。03 建立决策树C5.0分类模型,加入分析节点和评估图表分类方法以决策树为例建立决策树C5.0分类模型分类方法以决策树为例 文字树状包括分类结果、实例数字和置信度,当分类的实例置信度较高,则可导出预测规则。04 用文字树状展开模型结果 导出决策树模型,研究哪些因素显著影响用户信用的好坏,如本例中用户收入水平(Income level)是影响信用好坏(Cresit_rating)的最关键因素,其次是所持信用卡数量(Credit_cards)和使用时间(Age)05 软件导出决策树模型 从训练集和测试集的混淆矩阵中分别计算训练集合测试集的正确率、错误率、精确率、召回率。本例
14、中不论是训练数据还是测试数据,决策树分类模型的正确率、精确率和召回率都较高,错误率较低,说明模型性能较好。06 评估决策树分析模型4.3 聚类 聚类分析概述聚类分析方法以K-Means算法为例聚类概述聚类定义聚类分类n聚类分析是对一组对象进行分组,使得同一组(称为簇)中的对象与其他组中的对象相比相似性更高。n组内的相似性越大,组间差别越大,聚类结果就越好n聚类分析是一种探索性数据挖掘,可用于机器学习、模式识别、图像分析、信息检索、生物信息学、数据压缩和计算机图形学等众多领域。n 聚类本质上是一组包含数据集中的所有对象的簇,它可以指定集群彼此的关系,聚类可以大致区分为:硬聚类:每个对象都属于一个
15、簇;软聚类(也称模糊聚类):每个对象在一定程度上属于一个簇。聚类概述聚类过程示意图(a)原来的点(b)两个簇(c)三个簇聚类概述方法二方法一方法四方法三基于连通性的聚类(层次聚类)核心思想:与附近对象的关系比与远处的对象更相关。这些算法根据距离将“对象”连接起来形成“簇”。基于连通性的聚类算法不提供数据集的单个分区,而是提供广泛的层次结构,基于质心的聚类在基于质心的聚类中,聚类由中心向量表示,该中心向量不一定是数据集的成员。代表方法有K-Means算法。是与统计最密切相关的聚类模型。数据集可以很轻松的划分到最可能的同一分布。该方法非常类似于人工数据集的生成方式通过从分布中随机抽取样本。在基于密
16、度的聚类中,密度高于数据集其余部分的区域为簇,低密度区域中的对象通常被认为是噪声点。最典型的基于密度的聚类方法是DBSCAN。基于分布的聚类基于密度的聚类 聚类概述K-Means算法原理 随机选择 k 个点作为初始质心;将每个点指派到最近的质心,形成 k 个簇;根据每个簇包含的对象,重新计算每个簇的质心;重复步骤(2)、(3),直到质心不发生改变。K-Means方法聚类的过程 二元分类问题的混淆矩阵聚类分析方法以K-Means算法为例01n由样本的分布形成两个簇 C1=X1,X2,X4 C2=X3,X5 这两个簇的质心是M1,M2:M1=1.66,0.66 M2=3.25,1.00n样本初始随
17、机分布之后,方差是:E22=8.12 总体的平均误差是:E2=E12+E22=27.4802例4.1:对坐标表示的5个二维样本点X1,X2,X3,X4,X5作聚类分析,其中X1=(0,2),X2=(0,0),X3=(1.5,0),X4=(5,0),X5=(5,2)。假设要求的簇的数量k=2。36.19)66.00()66.15()66.00()66.10()66.02()66.10(E22222221聚类分析方法以K-Means算法为例03n取距离其中一个质心(M1或M2)距离最小的样本,将簇内样本的重新分布 D(M1,X1)=2.14 D(M2,X1)=3.40 X1 C1 D(M1,X2)
18、=1.79 D(M2,X2)=3.40 X2 C1 D(M1,X3)=0.83 D(M2,X3)=2.01 X3 C1 D(M1,X4)=3.41 D(M2,X4)=2.01 X4 C2 D(M1,X5)=3.606 D(M2,X5)=2.01 X5 C2 形成新簇:C1=X1,X2,X3 C2=X4,X5n计算新的质心 M1=0.5,0.67 M2=5.0,1.0 相应的方差及总体平方误差分别是:E12=4.17 E22=2.00 E2=6.17 可以看出第一次迭代之后,总体误差显著减小,依次 迭代下去,直到点所属的簇不发生改变为止。04 二元分类问题的混淆矩阵n事例说明:本书使用K-Mea
19、ns方法对Modeler自带数据BASKETS1n进行聚类分析。该数据是由超市购买者的信息和购买的商品信息组成,一共有1000条数据,包含如下18个字段,如表4-7所示。n分析目标:期望通过该数据明确经常来购物的超市顾客的种类,便于超市日后进行营销活动时能精准定位目标客户,具体操作如下:字段测量值角色字段测量值角色cardid度量10150,109884输入dairy标志T/F输入value度量10.007,49.8863输入cannedveg标志T/F输入pmethod名义CARD,CASH,CHEQUE输入cannedmeat标志T/F输入sex标志M/F输入frozenmeal标志T/F
展开阅读全文