书签 分享 收藏 举报 版权申诉 / 40
上传文档赚钱

类型《应用统计学》课件数据挖掘及应用(2014.04.26).ppt

  • 上传人(卖家):momomo
  • 文档编号:4827998
  • 上传时间:2023-01-15
  • 格式:PPT
  • 页数:40
  • 大小:670KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《应用统计学》课件数据挖掘及应用(2014.04.26).ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    应用统计学 应用 统计学 课件 数据 挖掘 2014.04 26
    资源描述:

    1、提 纲一、数据挖掘概述一、数据挖掘概述二、数据挖掘过程及工具二、数据挖掘过程及工具三、数据挖掘应用三、数据挖掘应用 1 1、数据挖掘研究现状、数据挖掘研究现状 2 2、数据挖掘的定义、数据挖掘的定义 3 3、数据挖掘的功能、数据挖掘的功能 1 1、数据挖掘的研究现状、数据挖掘的研究现状q研究现状研究现状:进入进入2121世纪,我国世纪,我国MISMIS应用已产生大量数据,应用已产生大量数据,数据挖掘应用成为信息化未来的数据挖掘应用成为信息化未来的“亮点亮点”;数据挖掘算法研究,这部分主要集中在高校,数据挖掘算法研究,这部分主要集中在高校,研究各种算法及其改进,缺少企业实际数据;研究各种算法及其

    2、改进,缺少企业实际数据;数据挖掘应用,当前主要集中在行业应用,通数据挖掘应用,当前主要集中在行业应用,通过各种算法解决高层管理问题,有很多企业拥过各种算法解决高层管理问题,有很多企业拥有大量实际数据,但是数据挖掘能力有限。有大量实际数据,但是数据挖掘能力有限。q应用现状:应用现状:理论性应用;理论性应用;随机应用多,系统应用少随机应用多,系统应用少依赖国外大型工具,性价比低;依赖国外大型工具,性价比低;认识不足,认为数据挖掘是技术人员的事务,实认识不足,认为数据挖掘是技术人员的事务,实际数据挖掘是属于业务应用范畴;际数据挖掘是属于业务应用范畴;算法驱动应用多,业务驱动应用少算法驱动应用多,业务

    3、驱动应用少 2 2、数据挖掘的定义、数据挖掘的定义 数据挖掘(数据挖掘(Data MiningData Mining)就是从)就是从大量大量的的、不完全的、有噪声的、模糊的、随机、不完全的、有噪声的、模糊的、随机的数据中,提取的数据中,提取隐含隐含在其中的、人们在其中的、人们事先事先不知道的、不知道的、但又是但又是潜在有用并能被理解潜在有用并能被理解的的信息和知识的信息和知识的过程过程。v概念关注点:概念关注点:(1 1)数据挖掘其实是一类深层次的数据分析方)数据挖掘其实是一类深层次的数据分析方 法。法。(2 2)基于技术的发展和数据的积累)基于技术的发展和数据的积累 (3 3)应用领域,更主

    4、要是为商业决策提供真正)应用领域,更主要是为商业决策提供真正 有价值的信息,进而获得利润。有价值的信息,进而获得利润。(4 4)获得有利于商业运作、提高竞争力的信息。)获得有利于商业运作、提高竞争力的信息。就像从矿石中淘金一样,数据挖掘也因此就像从矿石中淘金一样,数据挖掘也因此 而得名。而得名。数据挖掘与传统的数据分析数据挖掘与传统的数据分析(如查询、如查询、报表、联机应用分析报表、联机应用分析)的区别:的区别:数据挖掘是在没有明确假设的前提下数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。去挖掘信息、发现知识。数据挖掘所得到的信息往往是预先未数据挖掘所得到的信息往往是预先未曾预料到的曾

    5、预料到的,即数据挖掘是要发现那些不能即数据挖掘是要发现那些不能靠直觉发现的信息或知识靠直觉发现的信息或知识,甚至是违背直觉甚至是违背直觉的信息或知识的信息或知识,挖掘出的信息越是出乎意料挖掘出的信息越是出乎意料,就可能越有价值。就可能越有价值。在商业应用中最典型的例子是尿布和在商业应用中最典型的例子是尿布和啤酒的案例啤酒的案例v数据挖掘与数据仓库关系:数据挖掘与数据仓库关系:(1 1)数据挖掘也不必非得建立一个数据)数据挖掘也不必非得建立一个数据仓库,数据仓库不是必需的。仓库,数据仓库不是必需的。(2 2)大部分情况下,数据挖掘都要先把)大部分情况下,数据挖掘都要先把数据从数据仓库中拿到数据挖

    6、掘库或数据集数据从数据仓库中拿到数据挖掘库或数据集市中。市中。v数据挖掘和在线分析处理(数据挖掘和在线分析处理(OLAPOLAP)OLAPOLAP是决策支持领域的一部分。是决策支持领域的一部分。OLAPOLAP需要建立一系列的假设,然后通过需要建立一系列的假设,然后通过OLAPOLAP来证实或推翻这些假设来最终得到自己来证实或推翻这些假设来最终得到自己的结论。的结论。OLAPOLAP分析过程在本质上是一个演绎分析过程在本质上是一个演绎推理的过程。推理的过程。数据挖掘不是用于验证某个假定的模式数据挖掘不是用于验证某个假定的模式(模型)的正确性,而是在数据库中自己寻(模型)的正确性,而是在数据库中

    7、自己寻找模型。他在本质上是一个归纳的过程。找模型。他在本质上是一个归纳的过程。3 3、数据挖掘的功能、数据挖掘的功能(七个方面七个方面)q关联分析关联分析:指两个或多个变量之间存在着某种规律性指两个或多个变量之间存在着某种规律性;目的是找出数据中隐藏的关联网。目的是找出数据中隐藏的关联网。q分类概念描述分类概念描述:对某类对象的内涵进行描述对某类对象的内涵进行描述;特征性描述特征性描述:描述某类对象的共同特征;描述某类对象的共同特征;区别性描述区别性描述:描述不同类对象特征的区别;描述不同类对象特征的区别;q聚类分析:聚类分析:将数据按本身的相似性聚集在一起,然后对聚集状将数据按本身的相似性聚

    8、集在一起,然后对聚集状况进行分析解释况进行分析解释;与分类的区别与分类的区别:分类规则需要预先定义类别和训练分类规则需要预先定义类别和训练样本,而聚类分析直接面向数据源;样本,而聚类分析直接面向数据源;q预测:预测:预测预测:利用历史数据建立模型利用历史数据建立模型,在运用最在运用最新数据作为输入值新数据作为输入值,获得未来变化的趋势,获得未来变化的趋势,或者评估给定样本可能具有的属性值或或者评估给定样本可能具有的属性值或值的范围。值的范围。q趋势分析:趋势分析:从相当长的时间的发展中发现规律和趋势;从相当长的时间的发展中发现规律和趋势;相似于关联分析相似于关联分析,但注重数据间的前后因果关系

    9、。但注重数据间的前后因果关系。q孤立点分析孤立点分析(孤立点挖掘孤立点挖掘):指对数据库中包含的一些与数据的一般行为或指对数据库中包含的一些与数据的一般行为或模型不一致的数据进行分析;模型不一致的数据进行分析;通常将孤立点设为噪声或异常丢弃,而对某些通常将孤立点设为噪声或异常丢弃,而对某些应用该点数据可能更有价值,如欺骗检测;应用该点数据可能更有价值,如欺骗检测;q偏差分析偏差分析(比较分析比较分析):对差异和极端特例的描述,用于揭示事物偏离对差异和极端特例的描述,用于揭示事物偏离常规的异常现象;常规的异常现象;寻找观测结果与参照值之间有意义的差别。寻找观测结果与参照值之间有意义的差别。一、数

    10、据挖掘流程:一、数据挖掘流程:CRISP-DMCRISP-DM 2 2、DMDM工具介绍工具介绍 1 1、数据挖掘流程:、数据挖掘流程:CRISP-DMCRISP-DM二、数据挖掘过程及工具二、数据挖掘过程及工具1 1、数据挖掘标准流程简介、数据挖掘标准流程简介qCRISP-DM(CRISP-DM(跨行业数据挖掘标准流程跨行业数据挖掘标准流程););强调实施数据挖掘项目的方法和步骤强调实施数据挖掘项目的方法和步骤;将数据挖掘过程分为六个阶段,即业务理解、数据将数据挖掘过程分为六个阶段,即业务理解、数据理解、数据准备、建立模型、模型评估、结果发布;理解、数据准备、建立模型、模型评估、结果发布;这

    11、些阶段间的顺序并不严格,阶段间有循环,一般这些阶段间的顺序并不严格,阶段间有循环,一般项目的总体实施都是按阶段循环进行的。项目的总体实施都是按阶段循环进行的。q CRISPCRISPDMDM是是CRoss-Industry Standard CRoss-Industry Standard ProcessProcessData MiningData Mining的缩写的缩写;q由由SPSSSPSS、NCRNCR、Daimler-BenzDaimler-Benz在在9696年制定年制定;q CRISP CRISP是当今数据挖掘业界通用流行的标是当今数据挖掘业界通用流行的标准之一准之一;q强调数据挖

    12、掘在商业中的应用,解决商业强调数据挖掘在商业中的应用,解决商业中存在的问题,而不是把数据挖掘局限在中存在的问题,而不是把数据挖掘局限在研究领域。研究领域。qCRISPCRISPDMDM 商业理解商业理解 数据理解数据理解 数据准备数据准备 建立模型建立模型 模型评估模型评估 模型发布模型发布商业理解(商业理解(Business Understanding)Business Understanding)找问题确定商业目标找问题确定商业目标 对现有资源的评估对现有资源的评估 确定问题是否能够通过数据挖掘来解决确定问题是否能够通过数据挖掘来解决 确定数据挖掘的目标确定数据挖掘的目标 制定数据挖掘计划

    13、制定数据挖掘计划数据理解数据理解(Data Understanding)(Data Understanding)确定数据挖掘所需要的数据确定数据挖掘所需要的数据 对数据进行描述对数据进行描述 数据的初步探索数据的初步探索 检查数据的质量检查数据的质量数据准备数据准备(Data Preparation)(Data Preparation)选择数据选择数据 清理数据清理数据 对数据进行重建对数据进行重建 调整数据格式使之适合建模调整数据格式使之适合建模建立模型(建立模型(Modeling)Modeling)对各个模型进行评价对各个模型进行评价;选择数据挖掘模型选择数据挖掘模型;建立模型建立模型;模

    14、型评估模型评估(Evaluation)(Evaluation)评估数据挖掘的结果评估数据挖掘的结果;对整个数据挖掘过程的前面步骤进行评估对整个数据挖掘过程的前面步骤进行评估;确定下一步怎么办?是发布模型?还是对数据确定下一步怎么办?是发布模型?还是对数据挖掘过程进行进一步的调整,产生新的模型挖掘过程进行进一步的调整,产生新的模型;模型发布(模型发布(DeploymentDeployment)把数据挖掘模型的结果送到相应的管把数据挖掘模型的结果送到相应的管理人员手中理人员手中;对模型进行日常的监测和维护对模型进行日常的监测和维护;定期更新数据挖掘模型。定期更新数据挖掘模型。数据挖掘在营销中的应用

    15、流程数据挖掘在营销中的应用流程2、数据挖掘工具及应用概况、数据挖掘工具及应用概况三、数据挖掘应用三、数据挖掘应用1 1、银行、银行ATMATM加钞管理及预测加钞管理及预测2 2、银行、银行ATMATM价值特征分析价值特征分析应用一:应用一:ATMATM加钞管理(加钞预测)加钞管理(加钞预测)银行当前加钞现状分析:银行当前加钞现状分析:(1 1)加钞采取固定额的方式,一般加)加钞采取固定额的方式,一般加20W20W,或者,或者40W40W。(2 2)采取定期清钞方式,一般规定)采取定期清钞方式,一般规定3 3天左右对天左右对ATMATM进行进行清钞(即使钱箱仍有大量余票)清钞(即使钱箱仍有大量余

    16、票)资金沉淀资金沉淀建模思路建模思路(1 1)以总成本最小为判断依据)以总成本最小为判断依据加钞总成本包括资金占用而无法放贷导致的利息损失和加钞加钞总成本包括资金占用而无法放贷导致的利息损失和加钞成本两个方面,加钞成本主要体现在加钞车成本。成本两个方面,加钞成本主要体现在加钞车成本。(2 2)为每个)为每个ATMATM分别构建适合的模型分别构建适合的模型(3 3)分析每台)分析每台ATMATM最适合的加钞间隔最适合的加钞间隔为每台为每台ATMATM分析最优的加钞间隔,而不是所有的分析最优的加钞间隔,而不是所有的ATMATM一个相同一个相同的加钞间隔,一个固定的间隔。的加钞间隔,一个固定的间隔。

    17、(4 4)每天预测每台)每天预测每台ATMATM次日的缺钞概率次日的缺钞概率虽然虽然ATMATM会提前对缺钞提出预警,但是,在相对短的时间内,会提前对缺钞提出预警,但是,在相对短的时间内,对这些计划之外的对这些计划之外的ATMATM补加钞,可能会打乱银行的加钞行程安排补加钞,可能会打乱银行的加钞行程安排,通过预测每台,通过预测每台ATMATM次日的缺钞概率,可以帮助银行提前一天做次日的缺钞概率,可以帮助银行提前一天做出补加钞安排,可以变被动补加钞为主动补加钞。出补加钞安排,可以变被动补加钞为主动补加钞。建模方法建模方法神经网络方法神经网络方法情况银行资金获利能力平均加钞间隔(天)加钞车节 约

    18、资 金(万/天)缺 钞 次数加钞车成本增加资 金 沉淀 成 本减少成 本 净减少情况一25.85%3.461.99379.2710098.0398.03情况二6.63%4.881.4164704.244.24情况三25.85%3.651.87389.520100.7100.7情况四6.63%5.51.25-223-20-1.4618.55模型效果模型效果情况一:以天为加钞单位,银行资金收益能力比较强情况二:以天为加钞单位,银行资金收益能力比较弱情况三:以半天为加钞单位,银行资金收益能力比较强情况四:以半天为加钞单位,银行资金收益能力比较弱应用二:应用二:ATM价值特征分析价值特征分析分析内容:

    19、分析内容:(1 1)分析)分析ATMATM价值特征,了解价值特征,了解ATMATM布放的必要性布放的必要性 通过分析通过分析ATMATM交易数据,从直接价值、间接价值两个方面分交易数据,从直接价值、间接价值两个方面分析析ATMATM对银行的影响,了解对银行的影响,了解ATMATM当前的交易水平和交易规模、当前的交易水平和交易规模、ATMATM收益水平、收益水平、了解了解ATMATM对银行卡业务的影响程度、对银行卡业务的影响程度、ATMATM布放对银行布放对银行卡业务促进的潜力等方面的信息,发掘值得投入更多的资源,加卡业务促进的潜力等方面的信息,发掘值得投入更多的资源,加大大ATMATM布放和管

    20、理的力度。布放和管理的力度。(2 2)分析)分析ATMATM区域特征,提升区域特征,提升ATMATM布局的效益布局的效益 通过分析不同价值水平通过分析不同价值水平ATMATM所处的区域特点,有助于设计所处的区域特点,有助于设计ATMATM布局,确定布放的优先顺序,从而提升布局,确定布放的优先顺序,从而提升ATMATM布局的整体效益布局的整体效益。指标体系设计指标体系设计 (一)直接收益指标:(一)直接收益指标:可以给可以给ATMATM投资行直接带来的收益,主要有:投资行直接带来的收益,主要有:(1 1)信用卡取现笔数)信用卡取现笔数(2 2)信用卡取现金额)信用卡取现金额(3 3)普通卡跨行取

    21、现笔数)普通卡跨行取现笔数(4 4)普通卡跨行取现金额)普通卡跨行取现金额(5 5)他行卡和信用卡数量)他行卡和信用卡数量指标体系设计指标体系设计 (二)间接价值指标:(二)间接价值指标:不能直接给ATM投资行带来收益,但是能够加大ATM投资行的影响、改善用卡环境,从而达到扩大发卡量,提高用卡率,最终促进收益的目的。(1 1)本行本地转账和存取款交易笔数)本行本地转账和存取款交易笔数(2 2)本行本地转账和存取款交易金额)本行本地转账和存取款交易金额(3 3)本行异地转账和存取款交易笔数)本行异地转账和存取款交易笔数(4 4)本行异地转账和存取款交易金额)本行异地转账和存取款交易金额(5 5)

    22、总卡数)总卡数(6 6)有价值卡的数量)有价值卡的数量(7 7)本行卡数)本行卡数(8 8)他行卡数)他行卡数直接价值区域特征分析直接价值区域特征分析类别类别说明说明卡数卡数交易笔数交易笔数交易金额交易金额低价值低价值三个指标都比较低三个指标都比较低17851785张以下张以下48314831笔以下笔以下16981698万以下万以下高价值高价值三个指标都比较高三个指标都比较高17851785张以上张以上48314831以上以上16981698万以上万以上交易笔数(包含查询、取现、交易笔数(包含查询、取现、转账交易笔数)转账交易笔数)交易金额(包含查询、取现、交易金额(包含查询、取现、转账交易笔

    23、数)转账交易笔数)交易卡数(有发生交易的他行交易卡数(有发生交易的他行卡和信用卡)卡和信用卡)1 1低价值低价值人流量小等于每分钟人流量小等于每分钟1010人人并且,并且,地段:一般地段:一般2 2高价值高价值人流量小等于每分钟人流量小等于每分钟1010人人并且,并且,地段:偏僻地段:偏僻3 3高价值高价值人流量小等于每分钟人流量小等于每分钟1010人人并且,并且,地段:繁华地段:繁华并且,可视性好并且,可视性好4 4低价值低价值人流量小等于每分钟人流量小等于每分钟1010人人并且,并且,地段:繁华地段:繁华并且,可视性差并且,可视性差5 5高价值高价值人流量大于每分钟人流量大于每分钟1010

    24、人人经过分析,这三类经过分析,这三类ATM的交易特征分别如下:的交易特征分别如下:从上面分析可以看出,从上面分析可以看出,ATM价值影响最大的是人流量。价值影响最大的是人流量。类别说明卡数交易笔数交易金额低价值三个指标都比较低2000张以下14000笔以下1000万以下高价值三个指标都比较高2000张以上14000以上1000万以上间接价值区域特征分析间接价值区域特征分析1 1低价值低价值人流量每分钟小于等于人流量每分钟小于等于2 2人人并且,可用时间并且,可用时间2424小时小时并且,在写字楼并且,在写字楼2 2高价值高价值人流量每分钟人流量每分钟2-122-12人人并且,可用时间并且,可用

    25、时间2424小时小时并且,在写字楼并且,在写字楼3 3低价值低价值人流量每分钟小于等于人流量每分钟小于等于1212人人并且,可用时间并且,可用时间2424小时小时并且,在商场超市并且,在商场超市并且,附近其他行并且,附近其他行ATMATM数量小等于数量小等于4 4台台4 4高价值高价值人流量每分钟小于等于人流量每分钟小于等于1212人人并且,可用时间并且,可用时间2424小时小时并且,在商场超市并且,在商场超市并且,附近其他行并且,附近其他行ATMATM数量大于数量大于4 4台台5 5低价值低价值人流量每分钟小于等于人流量每分钟小于等于1212人人并且,可用时间并且,可用时间2424小时小时并

    26、且,在学校社区并且,在学校社区并且,附近其他行并且,附近其他行ATMATM数量大于数量大于4 4台台6 6低价值低价值人流量每分钟小于等于人流量每分钟小于等于1212人人并且,可用时间为商场营业时间或超市营业时间并且,可用时间为商场营业时间或超市营业时间7 7高价值高价值人流量每分钟大于人流量每分钟大于1212人人从上面分析可以看出,从上面分析可以看出,ATMATM价值影响最大的是人流量。价值影响最大的是人流量。总价值区域特征分析总价值区域特征分析直接价值直接价值间接价值间接价值ATM数量数量高高低低12低低高高0低低低低29高高高高17 综合直接价值和间接价值的分析情况,大致分成6类,考虑到

    27、有两个类ATM数量太少,所以直接价值的中价值和低价值合并成低价值,这样,ATM根据其直接价值和间接价值的高低,分成4类,其分布如表所示:直接价值低直接价值低间接价值低间接价值低地段:一般地段:一般并且,人流量每分钟小于等于并且,人流量每分钟小于等于1212人人地段:偏僻或者繁华地段:偏僻或者繁华并且,在学校社区市并且,在学校社区市并且,周围其他行并且,周围其他行ATMATM大于大于1 1台台直接价值高直接价值高间接价值低间接价值低地段:偏僻或者繁华地段:偏僻或者繁华并且,在写字楼或商场超市并且,在写字楼或商场超市并且,使用时间为商场营业时间或超市营业时间并且,使用时间为商场营业时间或超市营业时

    28、间地段:偏僻或者繁华地段:偏僻或者繁华并且,在学校社区市并且,在学校社区市并且,周围其他行并且,周围其他行ATMATM少等于少等于1 1台台直接价值高直接价值高间接价值高间接价值高地段:一般地段:一般并且,人流量每分钟大于并且,人流量每分钟大于1212人人地段:偏僻或者繁华地段:偏僻或者繁华并且,在写字楼或商场超市并且,在写字楼或商场超市并且,并且,2424小时可以用小时可以用总价值区域特征分析总价值区域特征分析非常高兴有机会与在座老师们、同学们非常高兴有机会与在座老师们、同学们共同探讨数据挖掘及应用问题。限于时共同探讨数据挖掘及应用问题。限于时间,难于深入,权当抛砖引玉,不当之间,难于深入,权当抛砖引玉,不当之处,敬请大家批评指正!处,敬请大家批评指正!谢谢大家!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《应用统计学》课件数据挖掘及应用(2014.04.26).ppt
    链接地址:https://www.163wenku.com/p-4827998.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库