数据挖掘与机器学习(非参数统计)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘与机器学习(非参数统计)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 机器 学习 参数 统计 课件
- 资源描述:
-
1、第10章数据挖掘与机器学习1概念:数据挖掘是从大量的数据中,抽取出潜在的、有价值的知识(模型或规则)的过程2工业控制技术研究所数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。工业控制技术研究所国民经济和社会的信息化国民经济和社会的信息化工业控制技术研究所数据挖掘数据挖掘数据库越来越大数据库越来越大有价值的知识有价值的知识可怕的数据可怕的数据工业控制技术研究所 苦恼: 淹没在数据中 ; 不能制定合适的决策! n模式模式n趋势趋势n事实事实n关系
2、关系n模型模型n关联规则关联规则n序列序列n目标市场目标市场n资金分配资金分配n贸易选择贸易选择n在哪儿做广告在哪儿做广告n销售的地理位置销售的地理位置n金融金融n经济经济n政府政府nPOS.n人口统计人口统计n生命周期生命周期数据挖掘功能数据挖掘任务有两类: 第一类是描述性挖掘任务:刻划数据库中数据的一般特性; 第二类是预测性挖掘任务:在当前数据上进行推断,以进行预测。工业控制技术研究所l技术分类 预言(Predication):用历史预测未来 描述(Description):了解数据中潜在的规律l数据挖掘技术 关联分析 序列模式 分类(预言) 聚集 异常检测工业控制技术研究所数据的特征知识
3、的特征算法的特征矿山(数据)挖掘工具(算法)金子(知识)工业控制技术研究所大容量POS数据(某个超市每天要处理高达2000万笔交易)卫星图象(NASA的地球观测卫星以每小时50GB的速度发回数据)互联网数据含噪音(不完全、不正确)异质数据(多种数据类型混合的数据源,来自互联网的数据是典型的例子)工业控制技术研究所构成数据挖掘算法的三要素模式记述语言:反映了算法可以发现什么样的知识模式评价:反映了什么样的模式可以称为知识模式探索:包括针对某一特定模式对参数空间的探索和对模式空间的探索工业控制技术研究所分类(Classification)聚类(Clustering)相关规则(Association
4、 Rule)回归(Regression)其他工业控制技术研究所代代特征特征数据挖掘算法数据挖掘算法集成集成分布计算分布计算模型模型数据模型数据模型第一代第一代数据挖掘作为数据挖掘作为一个独立的应一个独立的应用用支持一个或者支持一个或者多个算法多个算法 独立的系独立的系统统单个机单个机器器向量数据向量数据第二代第二代和数据库以及和数据库以及数据仓库集成数据仓库集成多个算法:能够多个算法:能够挖掘一次不能放挖掘一次不能放进内存的数据进内存的数据数据管理系数据管理系统,包括数统,包括数据库和数据据库和数据仓库仓库同质同质/ /局局部区域部区域的计算的计算机群集机群集有些系统支有些系统支持对象、文持对
5、象、文本、和连续本、和连续的媒体数据的媒体数据第三代第三代和预言模型和预言模型系统集成系统集成 多个算法多个算法数据管理和数据管理和预言模型系预言模型系统统intranet/extranet网网络计算络计算支持半结构支持半结构化 数 据 和化 数 据 和webweb数据数据第四代第四代和移动数据和移动数据/ /各种计算数各种计算数据联合据联合 多个算法多个算法数据管理、数据管理、预言模型、预言模型、移动系统移动系统移动和各移动和各种计算设种计算设备备普 遍 存 在普 遍 存 在的 计 算 模的 计 算 模型型工业控制技术研究所第一代数据挖掘系统 支持一个或少数几个数据挖掘算法,这些算法设计用来
6、挖掘向量数据(vector-valued data),这些数据模型在挖掘时候,一般一次性调进内存进行处理。许多这样的系统已经商业化。第二代数据挖掘系统 目前的研究,是改善第一代数据挖掘系统,开发第二代数据挖掘系统。第二代数据挖掘系统支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性。例如,第二代系统能够挖掘大数据集、更复杂的数据集、以及高维数据。这一代系统通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言(DMQL)增加系统的灵活性。 工业控制技术研究所第三代数据挖掘系统 第三代的特征是能够挖掘Internet/Extranet的分布式和高度异质的数据,
7、并且能够有效地和操作型系统集成。这一代数据挖掘系统关键的技术之一是提供对建立在异质系统上的多个预言模型以及管理这些预言模型的元数据提供第一级别(first class)的支持。 第四代数据挖掘系统 第四代数据挖掘系统能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据 。数据挖掘的功能/算法/应用的比较 数据挖掘常用方法的综合比较*数据挖掘的具体应用市场-购物蓝分析客户关系管理寻找潜在客户提高客户终生价值保持客户忠诚度行销活动规划预测金融市场方向 保险欺诈侦察 客户信用风险评级 电话盗打 NBA球员强弱分析 信用卡可能呆帐预警 星际星体分类数据挖掘的步骤
8、*一种步骤划分方式理解资料与进行的工作获取相关知识与技术(Acquisition)整合与查核资料(Integration and checking)去除错误、不一致的资料(Data cleaning)模式与假设的演化(Model and hypothesis development)实际数据挖掘工作测试与核查所分析的资料(Testing and verification)解释与运用(Interpretation and use)工业控制技术研究所第一代数据挖掘软件第一代数据挖掘软件CBA 新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测
9、工业控制技术研究所第二代数据挖掘软件第二代数据挖掘软件l特点 与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作l缺陷 只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发工业控制技术研究所第二代数据挖掘软件第二代数据挖掘软件 DBMiner工业控制技术研究所第二代软件第二代软件 SAS Enterprise Miner工业控制技术研究
10、所第三代数据挖掘软件第三代数据挖掘软件l特点 和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成l缺陷不能支持移动环境工业控制技术研究所第三代软件第三代软件 SPSS Clementine工业控制技术研究所第四代数据挖掘软件第四代数据挖掘软件l特点 目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四
11、代软件能够挖掘嵌入式系统、移动系统、和普遍存在(ubiquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。 工业控制技术研究所l 第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数
12、据预处理方面有一定缺陷 l 第三、四代系统强调预测模型的使用和操作型环境的部署 l 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 l 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 l 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导 工业控制技术研究所l 独立的数据挖掘软件l 横向的数据挖掘工具集l 纵向的数据挖掘解决方案工业控制技术研究所l国内大部分处于科研阶段
13、各大学和科研机构从事数据挖掘算法的研究 国内著作的数据挖掘方面的书较少(翻译的有) 数据挖掘讨论组()l有一些公司在国外产品基础上开发的特定的应用 IBM Intelligent Miner SAS Enterprise Minerl自主知识产权的数据挖掘软件 复旦德门()等工业控制技术研究所Debt$40KQ QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1factor 2factor n神经网络神经网络 Neural NetworksNeural Networks聚类分析聚类分析 ClusteringClusteringOpenAccntAdd NewP
14、roductDecreaseUsage?Time序列分析序列分析 Sequence AnalysisSequence Analysis决策树决策树 Decision TreesDecision Trees 倾向性分析 客户保留 客户生命周期管理 目标市场 价格弹性分析 客户细分 市场细分 倾向性分析 客户保留 目标市场 欺诈检测关联分析关联分析 AssociationAssociation 市场组合分析 套装产品分析 目录设计 交叉销售10.1分类一般问题定义:给定 , 为离散值,表示每个样例的分类,目标是找到一个函数 ,对于新观测点 ,能够用 预测分类 。11(,),(,)nnX YXYiY
15、fX( )f XY工业控制技术研究所分类:(与回归相比较)预测分类标号(或离散值离散值)(特点)根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型,比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测工业控制技术研究所第一步,建立一个模型建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类进行分类首先评估模型的预测准确率对每个
展开阅读全文