数据挖掘基础培训讲义-数据挖掘概述课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘基础培训讲义-数据挖掘概述课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 基础 培训 讲义 概述 课件
- 资源描述:
-
1、2022-12-121DM基础-1数据挖掘概述教材内容来源于数据挖掘:概念与技术第1章 引言(Jiawei Han and Micheline Kamber)2022-12-122课程大纲n什么激发了数据挖掘?n什么是数据挖掘?n在何种数据上进行数据挖掘?n数据挖掘功能n所有模式都是有意义的吗?n数据挖掘系统的分类n数据挖掘中的主要问题2022-12-123动机:“需要是发明之母”n数据爆炸问题 n自动化的数据收集工具和成熟的数据库技术导致了数据库、数据仓库和其它信息仓库中储存了海量数据n数据丰富,但信息贫乏!n解决方案:数据仓库和数据挖掘n数据仓库和联机分析处理n从海量数据中抽取出有意义的知
2、识(规则、规律、模式、约束)2022-12-124数据库技术的演化(参见图1.1)n1960s:n数据集合,数据库创建,IMS和网络数据库n1970s:n关系数据模型,关系数据库系统实现n1980s:nRDBMS,高级数据模型(扩展关系模型,面向对象模型,演绎模型等)和面向应用的数据库管理系统(空间,科学,工程等)n1990s2000s:n数据挖掘和数据仓库,多媒体数据库和Web数据库2022-12-125什么是数据挖掘?n数据挖掘(数据库中的知识发现):n从大型数据库中抽取有意义的(非平凡的,隐含的,以前未知的并且是有潜在价值的)信息或模式n其它类似术语:n数据挖掘:是否用词不当?n数据库中
3、的知识发现(KDD),知识抽取,数据/模式分析,数据考古,数据捕捞,商业智能等n什么不属于数据挖掘?n(演绎)查询处理n专家系统或小型的机器学习/统计分析程序2022-12-126为何进行数据挖掘?潜在应用n数据库分析和决策支持n市场分析和管理n目标营销,客户关系管理,购物篮分析,交叉销售,市场分段n风险分析和管理n预测,客户保持,降低风险,质量控制,竞争力分析n欺诈检测与管理n其它应用n文本挖掘(新闻组,电子邮件,文档)和Web分析n智能询问解答(QA)系统2022-12-127市场分析和管理(1)n分析的数据源在哪里?n信用卡交易,积分卡,折扣优惠券,客户抱怨电话,以及(公众)生活方式研究
4、n目标营销n发现具有相同特征的客户群模型:兴趣,收入水平,消费习惯等n判别客户的序列购买模式n从单身账户到共有账户的转变:结婚n交叉销售分析n产品销售之间的关联n基于关联信息而进行的预测2022-12-128市场分析和管理(2)n构造客户特征n数据挖掘可以告诉您哪种客户会购买哪种产品(通过聚类或分类)n识别出客户需求n识别出适合不同客户的最佳产品n通过预测来发现吸引新客户的因素n提供综合信息n各种各样的多维综合报表n统计上的综合信息(数据的集中趋势和变化)2022-12-129集团分析和风险管理n财政计划和资产评估n现金周转分析和预测n资产评估中的相机要求分析n交叉组合分析和时间序列分析(财务
5、比率,趋势分析等)n资源规划n资源和开销的总结和比较n竞争力n监视竞争对手和市场导向n对客户分组并基于分类制定价格n在激烈的竞争市场中制定价格策略2022-12-1210欺诈检测和管理(1)n应用n广泛用于健康卫生,零售,信用卡服务,电信(电话卡欺诈)等行业n方法n使用历史数据来构造欺诈行为模型,同时利用数据挖掘来辅助识别出类似案例n示例n汽车保险:检测出那些伪造事故来骗取保险金的人群n洗钱:检测可疑的金钱交易(美国财政部的金融犯罪执行网络)n医疗保险:检测出职业病人2022-12-1211欺诈检测和管理(2)n检测出不必要的医疗处理n澳大利亚医疗保险委员会查出在许多案例中病人都要求blank
6、et screening tests (每年节省一百万澳元)n检测电话欺诈n通话模型:对端号码,通话时长,每天(周)通话次数。分析那些偏离预期的通话模式n英国电信检测出频繁进行集团内部通话(特别是用手机通话)的一些犯罪集团,成功避免了数百万美元的欺诈n零售n分析家估计大约38%的零售额减少是由于不诚实的员工造成的2022-12-1212其它应用n体育nIBM Advanced Scout分析了NBA比赛的统计数据(阻攻,助攻,犯规等),帮助纽约尼克斯队和迈阿密热队提高竞争优势n天文学nJPL和Palomar天文台借助数据挖掘技术发现了22颗类星体n因特网冲浪辅助nIBM Surf-Aid利用数
7、据挖掘算法来分析与销售有关的Web访问日志,发现用户的偏好和行为,分析电子商务的有效性,改善网站的结构等2022-12-1213数据挖掘:一个KDD过程n数据挖掘:知识发现过程的核心数据清洗数据清洗数据集成数据集成数据库数据库数据仓库数据仓库任务相关的数据任务相关的数据选取选取数据挖掘数据挖掘模式评价模式评价2022-12-1214KDD过程的步骤n对应用领域的研究:n相关的预备知识和应用的目标n建立目标数据集:数据选取n数据清洗和预处理:(可能占据多达60%的工作量!)n数据归约和转换:n找出有用的特征,维度/变量归约,不变式转换n选择数据挖掘功能n综合,分类,回归,关联,聚类.n选择挖掘算
8、法n数据挖掘:找出有意义的模式n模式评价和知识表达n可视化,转换,消除冗余模式等等n利用发现的知识2022-12-1215数据挖掘和商业智能 增加支持增加支持商业决策商业决策的的潜能潜能最终用户最终用户业务业务分析师分析师数据数据分析师分析师DBA制定制定决策决策数据表达数据表达可视化技术可视化技术数据挖掘数据挖掘信息发现信息发现数据探索数据探索OLAP,MDA统计分析统计分析,查询和报表查询和报表数据仓库数据仓库/数据集市数据集市数据源数据源纸媒介纸媒介,文件文件,信息来源信息来源,数据库数据库,OLTP2022-12-1216典型数据挖掘系统的架构数据数据仓库仓库数据清洗数据清洗&数据集成
9、数据集成过滤过滤数据库数据库数据库或数据仓库 服务器数据挖掘引擎模式评价图形用户界面知识库2022-12-1217数据挖掘:在何种数据上进行?n关系数据库n数据仓库n交易数据库n高级数据库和信息仓库n面向对象和对象关系数据库n空间数据库n时间序列数据和时态数据n文本数据库和多媒体数据库n异构数据库和遗留数据库n因特网2022-12-1218数据挖掘功能(1)n概念描述:特征化和区分n泛化,综合,以及数据特征对比,例如,干旱和潮湿的地区n关联(相关性和因果关系)n多维关联和单维关联nage(X,“20.29”)income(X,“20.29K”)buys(X,“PC”)support=2%,co
10、nfidence=60%ncontains(T,“computer”)contains(x,“software”)1%,75%2022-12-1219数据挖掘功能(2)n分类和预测n找出能描述和区分分类或概念的模型(函数),用于以后的预测n例如,按气候来对国家进行分类,或者按每公里耗油量来对汽车分类n表达:决策树,分类规则,神经网络n预测:预测未知或缺失的数值n聚类分析n类标记是未知的:对数据进行分组以形成新类,例如,对房屋聚类以找出分布模式n聚类的原则:最大化类内相似性,并且最小化类间相似性2022-12-1220数据挖掘功能(3)n孤立点分析n孤立点:与数据的一般行为不一致的数据对象n常常
11、被视为噪声或异常而丢弃,但对于欺诈检测和稀有事件分析来说很有用n趋势和演变分析n趋势和偏差:回归分析n序列模式挖掘,周期分析n基于相似度的分析n其它模式分析或统计分析2022-12-1221所有“挖掘”的模式都是有意义的吗?n数据挖掘系统/查询可能产生成千上万个模式,但并非都有意义n建议的方法:以人为中心,基于查询,有目的的挖掘n兴趣度度量兴趣度度量:一个模式是有意义的,如果它易于被人理解,在某种程度上,对于新数据或测试数据有效,潜在有用,新颖,或者验证了用户渴望确认的某些假设n客观兴趣度和主观兴趣度度量客观兴趣度和主观兴趣度度量:n客观兴趣度:基于统计和模式的结构,例如,支持度,置信度,等等
12、n主观兴趣度:基于用户对数据的确信程度,例如,意外程度,新奇程度,可行动性,等等2022-12-1222能否只找出有意义的模式,能否找全?n找出全部有意义的模式:完备性n数据挖掘系统能否找出全部有意义的模式?n关联 vs.分类 vs.聚类n只找出有意义的模式:优化n数据挖掘系统能否只找出有意义的模式?n方法n首先生成全部模式,然后过滤无意义的模式n只生成有意义的模式挖掘的查询优化 2022-12-1223数据挖掘:多学科的汇合 数据挖掘数据库技术统计学其它学科信息科学机器学习可视化2022-12-1224数据挖掘:分类方案n一般功能n描述型数据挖掘 n预测型数据挖掘n不同角度,不同分类n挖掘的
13、数据库类型n挖掘的知识类型n所用的技术n应用的领域2022-12-1225数据挖掘分类的多维视图n挖掘的数据库类型挖掘的数据库类型n关系的、事务的、面向对象的、对象-关系的、空间的、时间序列的、文本的、多媒体的,WWW,等等n挖掘的知识类型挖掘的知识类型n特征、区分、关联、分类、聚类、趋势和演化分析、孤立点、偏差分析、类似性分析等n多重抽象层次的知识发现n所用的技术所用的技术n面向数据库,数据仓库(OLAP),机器学习,统计学,可视化,神经网络,等等n应用领域应用领域n零售,电信,银行,欺诈分析,DNA挖掘,股票证券,Web挖掘,Web日志分析,等等2022-12-1226OLAP挖掘:数据挖
14、掘和数据仓库的集成n数据挖掘系统数据挖掘系统,数据库管理系统数据库管理系统,数据仓库系统的耦合数据仓库系统的耦合n不耦合,松散耦合,半紧密耦合,紧密耦合n联机分析型数据挖掘联机分析型数据挖掘n数据挖掘和OLAP技术的集成n多层次知识的交互挖掘多层次知识的交互挖掘n有必要通过上卷/下钻,旋转,切片/切块来挖掘不同抽象层次的知识和模式n多种挖掘功能的集成多种挖掘功能的集成n基于特征化的分类,先聚类后关联分析2022-12-1227OLAM的架构数据仓库数据仓库元数据元数据MDDBOLAM引擎引擎OLAP引擎引擎图形用户界面图形用户界面API数据立方体数据立方体API数据库数据库API数据清洗数据清
15、洗数据集成数据集成第第3层层OLAP/OLAM第第2层层多维数据库多维数据库第第1层层数据存储数据存储第第4层层用户界面用户界面过滤过滤&集成集成过滤过滤数据库数据库挖掘查询挖掘查询挖掘结果挖掘结果2022-12-1228数据挖掘中的主要问题(1)n挖掘方法论和用户交互n在数据库中挖掘不同类型的知识n多层次知识的交互挖掘n结合背景知识n数据挖掘查询语言和特定数据挖掘n数据挖掘结果的表达和可视化n处理噪声和不完备的数据n模式评价:兴趣度问题n性能和缩放性n数据挖掘算法的效率和缩放性n并行的,分布式的和增量的挖掘算法2022-12-1229数据挖掘中的主要问题(2)n数据类型的多样性n关系型数据和
16、复杂类型数据的处理n异构数据库和因特网(WWW)的挖掘n应用领域和社会影响n知识发现的应用领域n领域相关的数据挖掘工具n智能询问解答(QA)系统n过程控制和决策制定n挖掘的知识和现有知识的集成:知识融合问题n数据的安全性,完整性,和隐私保护 2022-12-1230总结n数据挖掘:从大量数据中发现有意义的模式n数据库技术的自然演变,巨大的需求,广泛的应用nKDD过程包括数据清洗,数据集成,数据选取,转换,数据挖掘,模式评价,和知识表达n数据挖掘可以在多种数据存储上进行n数据挖掘功能:特征化,区分,关联,分类,聚类,孤立点和趋势分析等等n数据挖掘系统的分类n数据挖掘中的主要问题 NCR数据挖掘总
17、体介绍数据挖掘总体介绍Why?Which?Where?How?What?数据挖掘数据挖掘FAQ数据数据 =储藏室储藏室数据数据 +工具工具 =网吧网吧数据数据 +工具工具 +方法方法 =信息信息数据数据 +工具工具 +方法方法 +目标目标 =知识知识数据数据 +工具工具 +方法方法 +目标目标 +行动行动 =价值价值(Why)为何要数据挖掘?)为何要数据挖掘?Data Mining is forpower users to follow a proven methodology to discover action-oriented insights from detail operation
18、s data to improve business.数据数据挖掘是挖掘是分析专家分析专家用用已验证已验证的方法的方法在在业务细节数据业务细节数据中中发掘出发掘出可可采取行动的洞察力采取行动的洞察力,从而,从而改善企业运营改善企业运营。(What)什么是数据挖掘?)什么是数据挖掘?客户客户面向客户面向客户客户管理客户管理CRMCRM 客户关系管理客户关系管理 数据仓库数据仓库WalletShareAcquisitionRetentionFraudProductAffinityPriceSensitivityValue&RisksPsycho-demographicsDMMethodyTools
19、&TechniquesArchitect&OAMAd HocQueryWAR/FWAR/F(Which)在哪些方面进行挖掘?)在哪些方面进行挖掘?NCR DM in Telecommunication业务目标业务目标模型模型-钱包份额钱包份额/争取新客户争取新客户 (Wallet Wallet Share/Acquisition)Share/Acquisition)预测客户购买新产品的倾向Cross-Sell Response Model预测客户扩展服务用量的倾向Up-sell Response Model 预测客户升级服务的倾向Upscale Response Model客户挽留及保育客户挽
20、留及保育 (RetentionRetention)预测哪些客户会终止服务的使用Churnsentry Solution改善挽留行动的效率Response Model欺诈欺诈/拖欠侦测拖欠侦测 (Fraud/DelinquencyFraud/Delinquency)预测客户拖欠账单支付的倾向Propensity to Delinquent预测拖欠客户对催缴的响应Propensity to Collect欺诈侦测及管理Fraudsentry Solution基础基础/知识知识 (Infrastructure/KnowledgeInfrastructure/Knowledge)了解客户购买不同产品的
展开阅读全文