商务数据挖掘与应用案例分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《商务数据挖掘与应用案例分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 商务 数据 挖掘 应用 案例 分析 课件
- 资源描述:
-
1、第第2 2章章 数据挖掘建模方法数据挖掘建模方法 2.1 概述概述 2.2 业务理解业务理解 2.3 数据理解数据理解 2.4 数据准备数据准备 2.5 建模建模 2.6 评估评估 2.7 部署部署 2.1 概述 (1)l成功的数据挖掘是让数据有商业价值,数据挖掘分析师需要知道什么对商业有价值,并且知道为了获得巨大收益如何整理数据。为了成功运用数据挖掘,对数据挖掘技术层面的理解至关重要,尤其是应该了解如何将数据变成有用信息的过程。l本章主要介绍跨行业标准流程CRISP-DM(cross-industry standard process for data mining)。该模型将一个数据挖掘项
2、目的生命周期分为业务理解、数据理解、数据准备、建模、评估和部署等6个阶段,这个流程为我们提供了一个数据挖掘所需步骤的完整概括。2.1 概述 (2)l业务理解(Business Understanding)l数据理解(Data Understanding)l数据准备(Data Preparation)l建模(Modeling)l评估(Evaluation)l部署(Deployment)商业数据挖掘案例某一家银行存在一个业务难题,他们的特别商业产品家庭抵押贷款额度,不能吸引好的客户,家庭抵押贷款业务量低。为此,美国消费者资产协会决定与Hyperparallel 公司合作,采取数据挖掘方法来解决这个
3、问题。根据CRISP-DM建模体系,第一阶段是业务理解。从这个案例来看,主要的业务问题是解决家庭抵押贷款的业务量。从业务角度上看,是否存在一些客户群体对家庭抵押贷款这项业务感兴趣,而这些客户群体又有什么共同的特征,客户什么时候最可能需要这种贷款等等。根据一般常识和商业顾问、领域专家的意见,他们认为可能使用家庭贷款业务的人群有两种:一种是有孩子上大学的家长,想通过家庭抵押贷款支付学费,另一种是高收入但收入不稳定的人,想通过家庭抵押贷款事、使其收入削峰填谷。经过上述的业务理解后,需要进行数据理解。首先要收集数据挖掘过程所需要的数据。多年来,美国银行一直将数百万的零售客户数据存储在一个巨大的关系数据
4、库中。关系数据库中的数据共有42个字段,每个记录保存了客户的详细信息。收集到原始数据后,需要根据问题识别数据有用的特征,检验数据的质量,对缺失的字段、数值型变量的取值范围等质量问题进行检验并作处理。然后,对这些数据进行筛选,转换,调整,规范化后,输入到公司数据仓库中。美国银行利用这个系统,能参透与银行保持联系的客户的所有关系。数据库中数据的属性汇集成客户独一无二的特征,然后采用Hyperparallel 公司的数据挖掘工具进行分析。经过数据挖掘工具的决策树功能,按照现有银行划分客户的规则,将客户分成两类,即可能或者不可能对提供家庭抵押贷款做出反应。经过了大量的有购买产品和没有购买产品的客户数据
5、,决策树最终获得判定不同类型客户之间差别的规则。一旦发现规则,利用得到的模型可以给每个潜在客户记录增加一个属性,即好的潜在客户标志,就是由数据挖掘模型生成的。接着使用模式的查找工具,确定客户什么时候最有可能需要这种贷款。最后,使用聚类工具将具有相似属性的客户分成不同的组。在某一点上,数据挖掘工具发现了14个客户簇,其中很多簇似乎没有什么特别的发现。但是,有一个簇具有两个令人费解的特点:一是这个簇的39%的人不同时拥有企业和个人账户,二是这个簇中的客户占到家庭抵押贷款可能响应者的四分之一。这些数据提示好奇的数据挖掘者,上述簇中的客户有可能使用家庭抵押贷款来从事商业活动。利用数据挖掘的结果,美国消
6、费协会资产协会和银行的零售分支机构联合组织市场调查、与客户面谈。市场调查的结果证实了贷款收入将被用于从事商业活动。尽管市场调查存在一些缺点,例如响应者并不能代表全部的人口,有些客户并非诚实对待调查等等,但是与现有客户和以前的客户进行面谈的时候,也可以深入了解其他方式无法得到的情况。对由数据挖掘产生的结果进行评估之后,美国银行制定部署运用方案,并且按照方案采取了相应的措施,最终,家庭抵押贷款的响应率从0.7%上升到了7%。资料来源:(美) Michael J.A. Berry (美) Gordon S.Linoff 著. 数据挖掘技术:市场营销、销售与客户关系管理领域应用.机械工业出版社.200
7、6.7 2.2 业务理解l业务理解是数据挖掘的第一个阶段,从业务的角度了解项目的要求和最终目的是什么,并将这些目的与数据挖掘的定义以及结果结合起来 。具体任务包括:(1) 业务梳理(2) 业务描述(3) 业务特征研究(4) 业务关联分析2.3 数据理解 (1)l数据理解阶段是从收集数据开始,通过一些活动的处理,目的是熟悉数据,识别数据的质量问题,首次发现数据的内部属性,或是探测引起兴趣的自己去形成隐含信息的假设。其任务包括:(1) 数据收集(2) 数据描述(3) 数据探索(4) 数据质量检测2.3 数据理解 (2)(1) 数据收集l在收集数据之前,需要根据业务问题明确数据挖掘过程需要哪些信息,
8、哪些变量是必需的,哪些变量与数据挖掘目标不相关,然后根据选择的标准收集数据,检查是否所有的信息都确实可以利用来实现数据挖掘的目标。(2) 数据描述l描述数据主要是熟悉数据,理解数据的内涵,检验数据的“总的”或者“表面的”特征。例如从商业的角度理解每个变量及其值的含义,变量的含义是否始终一致,变量是否与具体的数据挖掘目标相关联等。2.3 数据理解 (3)(3) 数据探索l探索数据主要是详细分析引人注目的变量特征,识别潜在的特征,思考和评估在描述数据过程中的信息和发现,提出假设并确定方案,阐明数据挖掘的目标。l例如,电信公司想挖掘出移动业务之间的关联规则,那么,在描述数据后,根据数据的特征,选择各
9、种可能相关的业务进行挖掘,对于显而易见的规则,则可以不作考虑。比如说开通上网功能的客户中绝大部分客户也开通了飞信业务,则在探索数据时,不需要考虑这两个业务之间的关联。(4) 数据质量检测l检验数据质量,列举有关问题。例如数据是否完整、正确,是否存在缺失值,数值型变量的范围是否落在允许的范围内,变量的含义与变量值是否一致等质量问题。2.4 数据准备 (1)l数据准备阶段的工作是对可用的原始数据进行一系列的组织以及清洗等预处理,使之达到建模需求,而这些数据将是模型工具的输入值。l数据准备阶段的任务有可能执行多次,并且没有任何规定的顺序。这个阶段其任务包括:(1) 数据筛选(2) 数据清理(3) 数
10、据构建(4) 数据整理合并(5) 规范化数据(6) 准备建模数据集(7) 选择建模技术和训练模型(1) 数据筛选l数据筛选的任务是确定数据挖掘分析过程中所必须的数据,即选择有用的特征和记录。u在选择数据的时候,首先要考虑的问题是数据要符合解决企业问题的需要。u再者,由于用于建模的数据应尽可能地完整,数据量尽可能多。u当开发预测模型时,资料中也应该包括想要的输出。2.4 数据准备 (2)(2) 数据清洗l数据挖掘过程是否成功,得出的结果模型是否可靠,取决于数据质量的好坏。清理数据的任务恰恰是清理数据中包含的噪声和与数据挖掘主题明显无关的数据,从而提高数据的质量。清理数据通常包括:u填补空缺的数据
11、值。例如忽略有空缺值的记录;人工填写空缺值;使用一个全局变量填写空缺值;使用属性的均值填写空缺值。u清理噪声数据。对于噪声数据有以下几种处理方法:一是分箱,二是聚类方法,通过聚类发现孤立点。三是计算机与人工相结合的方法,四是回归分析,建立回归方程。u解决不一致问题。数据的不一致主要表现在数据的单位、命名、结构、含义不一致。可以通过对数据的统一调整进行解决。2.4 数据准备 (3)(3) 数据构建l数据构建包括建设性的数据准备工作,例如属性构造,多维数据组织(聚集),数据泛化处理。u属性构造是指构造新的属性并添加到属性集中,以帮助提高数据挖掘的过程。u多维数据组织(聚集)是指对数据进行汇总和聚集
展开阅读全文