大数据分析与挖掘01数据挖掘概论课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据分析与挖掘01数据挖掘概论课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 分析 挖掘 01 概论 课件
- 资源描述:
-
1、 数据挖掘概论聊点别的聊点别的 作为老师,你能在开课之初第一次课一眼扫过教室,就知道该给这个班这个班好不好教、该什么样的教学方式?经过几周,你会逐渐了解这个班的80/15/5人群,你会相应的调整分别对这些学生怎么教学,不费力还能讨好?甚至有些学生会跟你做朋友,你永远都懂得他们想听什么,他们也觉得你特别懂他们,你在内心中狂喜。有时候你也会跟他们讲三岁看老的道理、也会拿着作业本就侃侃而谈他将来哪里会顺哪里会痛,而这些好像还真的被你“算”对了!你给她们描绘的美好的前途激励了学生们学习的激情和兴趣。Part 1.你准备好应对大数据时代了身 处大数据时代!我们已经处在大数据时代,可能还浑然不知事件一:变
2、革公共卫生事件2009年,H1N1流感预测对手谷歌疾控中心武器分析搜索记录医院报告结果谷哥提前两周得到结果与官方数据相关性达97%维克托教授将带我们一窥大数据时代的全景事件二:变革商业事件机票价格预测人物埃齐奥尼的Farecast系统武器分析大量价格记录结果票价预测准确度达75%平均每张机票节省50美元时间就是生命!省钱是硬道理!处理数据理念的思维变革挖掘数据价值的商业变革面对数据风险的管理变革3大重要变革010102020303处理数据理念的思维变革0101云计算能便宜、有效、高速地的对信息存储、分享和挖掘采样分析是信息缺乏时代和信息流通受限制时代的产物a更多而是全体数据不是随机样本b更杂不
3、求精确、更多混杂非结构c更好而是相关关系不是因果关系挖掘数据价值的商业变革0202大数据时代的重要价值在数据深挖掘数据的价值来源于万物数据化和数据交叉复用a数据化01码转可量化、交叉复用b价值之不竭、开放取之不尽,用c角色定位思维的三足鼎立数 据、技 术 与面对数据风险的管理变革0303需要新的规章制度应对大数据时代的各种隐忧危险不再是隐私的泄露,而是被预知的可能性b掌控的 信 息 管 理责任与自由并举a风险一 切 的 隐 忧让 数 据 主 宰初识数据分析Part 2.现实中的问题现实中的问题 你的产品更新是否达到了你的预期效果?你的流量发生波动的原因是哪些?你如何控制你的成本?你如何去预测你
4、未来的流量,收入,或是成本?面对一堆数据,你该如何下手?大数据(大数据(Big Data)数据分析:进行数据收集、整理、分析、并依据数据做出评估和预测 BIG DATA:Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it.数据分析流程:SEMMA业务分析目的产品理解收集收集数据抽样数据导入数据分裂过滤抽样探索图形探索数值
5、探索聚类分析特征选择修改删除主成分建模逻辑回归SVM神经网络评估模型比较模型评分EXCEL-数据分析的基础数据分析的基础 常用的分析技术 描述统计(平均数、标准误差、中位数、众数、标准差、方差等)相关系数(可以使用相关系数分析工具来检验每对测量值变量,以便确定两个测量值变量是否趋向于同时变动,检测两个变量是否相关以及关联的程度有多强)T检验(双样本 t-检验”分析工具基于每个样本检验样本总体平均值的等同性,检测两组数据是否有差异)回归(回归分析工具通过对一组观察值使用“最小二乘法”直线拟合来执行线性回归分析。本工具可用来分析单个因变量是如何受一个或多个自变量影响的。)数据分析还能做什么?数据分
6、析还能做什么?对用户或者渠道进行等级分类(聚类分析)对渠道是否作弊进行判断(逻辑回归,支持向量机等)对不同推广方式的有效性进行检测(方差分析)对广告位或者推广价格的精准制定(回归分析)商品推荐(关联分析)。数据数据挖掘挖掘的应用的应用关于数据挖掘的故事关于数据挖掘的故事142022-8-11 历史性的大数据时代 东东比萨店的电话铃响了,客服人员拿起电话。客服:东东比萨店,您好,请问有什么需要我为您服务?顾客:你好,我想要 客服:先生,请把您的AIC会员卡号码告诉我。顾客:135259XXXXXX。客服:陈先生,您好,您是住在XX街一号12楼1205室,您家电话是2039XXXX。对吗?(1.客
7、户数据库)顾客:为什么你知道我的电话号码?客服:陈先生,因为我们有AIC会员系统。152022-8-11 顾客:我想要海鲜比萨 客服:陈先生,海鲜比萨不适合您。顾客:为什么?客服:根据您的医疗记录,您有高血压和胆固醇偏高。(2.医疗数据库)顾客:那你们有什么可以推荐的?客服:您可以试试我们的低脂健康比萨。顾客:你怎么知道我会喜欢吃这种的?客服:您上星期一在中央图书馆借了一本低脂健康食谱。(3.图书借阅数据库)顾客:好那我要一个家庭号特大比萨,要付多少钱?162022-8-11 客服:99元,这个足够您一家六口吃了,但是您母亲应该少吃,因为她上个月刚做了心脏搭桥手术,处在恢复期。(2.医疗数据库
8、)顾客:可以刷卡吗?客服:陈先生,对不起,请您付现款,因为您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括房贷利息。(4.金融数据库-信用卡)顾客:“喔!那我先去附近的提款机领钱。”客服:“陈先生,根据您的记录,您已经超过今日提款机提款限额。”(5.金融数据库-现金卡)顾客:算了。你们直接把比萨送到我家吧,家里有现金。你们多久会送到?客服:大约三十分钟,如果您不想等,可以自己骑车来。172022-8-11 顾客:什么?客服:根据AICCRM系统全球定位系统的实时自动跟踪系统的记录,目前您正骑着这辆车,离我们店并不远。(1.客户数据库)顾客:XXX 客服:陈先生,请您说话小心点儿,您
9、曾在2004年4月1日用脏话侮辱XX,被拘役10天,罚款200元。如果您不想重蹈覆辙,就请您礼貌回复。(6.刑事刑案数据库)顾客:那算了,我什么都不要了,那份比萨也不要了!客服:谢谢您的电话光临,下星期三是您太太的生日,你不想预订一份生日比萨吗?提前一周预订可以享受8折优惠。(1.客户数据库)顾客:18CRM Road MAP数据仓库营销自动化接触通路电子邮件/简讯客服中心网络银行邮件/传真业务代表销售自动化服务自动化作业型资料储存库(ODS)整合性客户数据库分析性资料超市分析模块(AnalyticalModels)/BusinessDomainReadySolutions前台后台查询/报表在
10、线实时分析数据挖掘(Data Mining)客户数据挖掘所能解决的典型商业问题包括:银行:反欺诈行为、关联销售、市场竞争分析。客户分类、客户价值分析与预测、客户偏好分析、客户信用分析以及欺诈检测等。电信:流失预警、客户分群、关联销售。网上销售点:购物车交叉销售、网上商品布局。2022-8-1119数据挖掘在企业中的应用数据挖掘在企业中的应用 DM在信用卡欺诈交易中的应用:通过评价交易数目、交易金额、账户信息如姓名变化和地址变迁、换卡申请等非金融信息的组合,描述出持卡人最近交易的大概轮廓,从而评估出是否与持卡人的交易习惯相符,发现交易异常明显痕迹,发卡行需要联系持卡人,以确定其信用卡账户最近是否
11、正常,是否被以任何方式遭受损害。2022-8-1120DM在大型零售企业中的应用 优化商品组合布局,正确安排商品进货与库存:从众多的商品中发现创造价值最大的商品,据此调整商品的结构,安排商品的库存和定货;商品布局管理通过商品摆放位置促进销售,如超级市场的厨房用品是按照女性的视线高度来摆放。如美国妇女的视线高度是150公分左右,男性是163公分左右,而最舒适的视线角度是视线高度以下15度左右,所以最好的货品陈列位置是在130-135公分之间。精准制定营销策略:(1)通过对市场同类产品和销售情况、顾客情况的收集和分类分析,明确细分市场,确定本企业差别化的产品和服务定位、目标顾客和市场营销策略。(业
12、绩分析);(2)正确安排商品进货与库存,降低库存成本 DM在交叉销售中的应用:拥有汽车的新婚夫妻购买儿童专用汽车椅时通过数据挖掘推荐购买儿童专用汽车椅颜色,以便在新婚夫妻购买汽车的时候销售给他们合适儿童专用汽车椅。2022-8-1121DM在管理优化与支持 市场分析和管理:针对销售(target marketing),顾客关系管理,购物篮分析,交叉销售(cross selling),市场分割(market segmentation)风险分析与管理:预测,顾客关系,改进保险,质量控制,竞争能力分析 欺骗检测与管理DM在其他应用 文本挖掘(新闻组,email,文档资料)流数据挖掘(Stream d
13、ata mining)DNA 数据分析运动领域:IBM Advanced Scout分析NBA的统计数据(阻挡投篮,助攻,和犯规)获得了对纽约小牛队(New York Knicks)和迈艾米热队(Miami Heat)的竞争优势天文领域:借助数据挖掘,JPL 和 Palomar Observatory 发现22 颗类星体(quasars)Internet Web Surf-Aid:IBM Surf-Aid 将数据挖掘算法用于有关交易的页面的Web访问日志,以发现顾客喜爱的页面,分析Web 销售的效果,改进Web 站点的组织,等.Top 10数据挖掘工具数据挖掘工具 1.RapidMiner 2
14、.SAS Data Mining(SAS)3.WEKA 4.Teradata 5.Orange 6.KNIME 7.NLTK 8.JHepWork 9.Pentaho 10.OracleData Mining242022-8-11PMT:一款基于Python的数据挖掘工具数据挖掘与数据仓库Part 3.数据挖掘的社会需求数据挖掘的社会需求 现实情况:人类积累的数据量以每月高于15%的速度增加1.信息过量,难以消化;2.信息真假难以辨识;3.信息安全难以保证;4.信息形式不一致,难以统一处理。数据挖掘的内容和本质 随着DMKD研究逐步走向深入,其研究工作已经形成了三根强大的技术支柱:DB、AI和
15、数理统计。DMKD的主要研究内容包括基础理论、发现算法、数据仓库、可视化技术、定性定量互换模型、知识表示方法、发现知识的维护和再利用、半结构化和非结构化数据中的知识发现以及网上数据挖掘等。DM所发现的知识最常见的有以下五类:广义知识(Generalization);关联知识(Association);分类知识(ClassificationClustering);预测型知识(Prediction);偏差型知识(Deviation)数据挖掘的技术基础(1)超大规模数据库的出现(2)先进的计算机技术(3)经营管理的需要(4)对数据的精深计算能力数据挖掘数据挖掘 数据挖掘的技术定义 数据挖掘是从大量的
16、、不完全的、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。简单地说,数据挖掘就是从大量数据中提取或“挖掘”知识。数据挖掘和信息检索的比较信息检索和数据挖掘的相同点是从档案文件或数据库中抽取感兴趣的数据和信息。区别在于数据检索对信息的抽取规则是事先定义好的,抽取的是外在信息。数据挖掘则寻找现象之间事先未知的关系和关联 。数据挖掘的商业定义 数据挖掘是一种崭新的商业信息处理技术。其主要特点是对商业数据库中的大量业务数据进行抽取、转化、分析和模式化处理,从中提取辅助商业决策的关键知识,即从一个数据库中自动发现相关商业模式。数据挖掘与传统的数据分
17、析的本质区别是数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先前未知,有效和可实用三个特征。大数据的4V特点 大量化(Volume)多样化(Variety)快速化(Velocity)价值(Value)数据挖掘的分类数据挖掘的分类 数据挖掘是一个交叉学科领域,受多个学科影响,包括数据库系统、统计学、机器学习、可视化和信息科学。数据挖掘受多门学科影响的示意图分类标准类别按数据挖掘方法的直接性直接数据挖掘、间接数据挖掘按数据分析的角度分类描述式数据挖掘、预测式数据挖掘按挖掘的数据库分类关系型、事务型、面向对象型、主动型、空间型、文本型、多媒体、异构数据库按挖掘的规则
18、分类关联规则、分类规则、聚类规则、趋势分析、偏差分析、模式分析、特征规则、总结规则按采用的技术分类模糊和粗集方法、人工神经网络、遗传算法、决策树、最近邻技术、规则归纳、可视化技术按挖掘知识的抽象层次分类原始层次、高层次和多层次按挖掘知识的反映事物之间的性质分类同类共性广义知识、特征型知识、属性差别知识、关联型知识、预测型知识、离群型知识数据挖掘的分类数据挖掘的应用领域数据挖掘的应用领域(1)金融领域(2)营销领域(3)电子政务领域(4)电信领域(5)工业生产领域(6)生物和医学领域(1)金融领域金融领域 贷款偿还预测 客户信用政策分析 客户透支分析 客户利润分析 客户消费行为分析 客户消费异常
19、行为分析(2)营销领域)营销领域 关联分析-市场篮子分析,用于了解顾客的购买习惯和偏好,有助于决定市场商品的摆放和产品的捆绑销售策略;序列模式与市场篮子分析相似,不过是用某时间点发现的产品购买或其他行为模式来预测将来购买产品或服务类别的概率;聚类用于市场细分,将顾客按其行为或特征模式的相似性划分为若干细分市场,以采取有针对性的营销策略;分类用于预测哪些人会对邮寄广告和产品目录、赠券等促销手段有反应,还可用于顾客定级、破产预测等。例如:美国运通公司“关联结算优惠”的促销策略 美国读者文摘出版公司(3)电子政务领域)电子政务领域 电子政务数据挖掘是把数据挖掘及时折射到政府部门,使政府部门的内部信息
20、与外部信息进行有效地整合,以便政府部门可以更好、更有效地将信息发布给最希望得到它们的公众,从而使政府部分更好地服务于公众。另外,由于政府各部门自动化的实现,产生了大量的数据,对这些数据进行收集和分析,可以获得影响政府部门工作的关键因素,从而为政府部门决策提供依据,帮助政府部门提高政府信息化水平,促进整个社会的信息化。如:美、英、日本、新加坡(电子公民中心)(4)电信领域)电信领域 目前,数据挖掘技术在电信CRM系中的应用有以下几个方面:(1)客户获得(2)交叉销售(Cross_selling)(3)客户保持 (4)一对一营销(5)工业生产领域)工业生产领域 在生产工业领域,大部分工厂都积累了大
展开阅读全文