数据挖掘算法介绍综述课件-2.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘算法介绍综述课件-2.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 算法 介绍 综述 课件 _2
- 资源描述:
-
1、数据挖掘算法介绍数据挖掘算法介绍 综述综述2022年8月12日星期五2改变未来世界的十大新兴技术改变未来世界的十大新兴技术nTechnology Review(麻省理工学院(麻省理工学院2002年年1月出刊)月出刊)机器与人脑的接口机器与人脑的接口塑胶晶体管塑胶晶体管数据挖掘(数据挖掘(Data Mining)数字权利管理数字权利管理生物测定学(生物测定学(Biometrics)语言识别处理语言识别处理微光学技术(微光学技术(Microphotonics)解开程序代码(解开程序代码(Untangling Code)机器人设计机器人设计微应用流体学(微应用流体学(Microfluidics)20
2、22年8月12日星期五3什么是数据挖掘?什么是数据挖掘?DataInformationKnowledgeWisdomn存在太多数据挖掘的定义,但基本上有这样一种描述存在太多数据挖掘的定义,但基本上有这样一种描述结构结构To find/discover/extract /dredge/harvest、Interesting/novel/useful/implicit/actable/meaningful、Information/knowledge/patterns/trends/rules/anomalies、In massive data/large data set/large databa
3、se/data warehouse、Data+contextInformation+rulesKnowledge+experience2022年8月12日星期五4为什么会出现数据挖掘?为什么会出现数据挖掘?n数据爆炸性增长是数据挖掘技术应运而生的根本原因。数据爆炸性增长是数据挖掘技术应运而生的根本原因。只见树木,不见森林(只见树木,不见森林(Drowning in data but starving for information)计算复杂度计算复杂度数据管理问题数据管理问题数据类型的多样性数据类型的多样性处理大容量数据是数据挖掘技术区别于其他数据分析方法的唯一标志吗?2022年8月12日星期
4、五5其他数据分析方法:统计学其他数据分析方法:统计学n从处理数据的角度看、从处理数据的角度看、数据规模不同数据规模不同数据来源不同:观测数据(数据来源不同:观测数据(Secondary Analysis)VS 试验数据(试验数据(Primary Analysis)数据类型不同(结构化数据、半结构化数据、非结构化数据)数据类型不同(结构化数据、半结构化数据、非结构化数据)n从分析思想的角度看从分析思想的角度看更关注实证性分析(更关注实证性分析(Empirical Analysis)而非探索性分析()而非探索性分析(Exploratory Analysis)更关注模型(更关注模型(Model)而非
5、算法()而非算法(Algorithm)n但二者具有相当密切的联系但二者具有相当密切的联系从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉从数据分析的角度,统计学现在是且仍将是数据挖掘最重要的技术支撑和思想源泉更加深入的渗透和交叉(如探索性数据分析,更加深入的渗透和交叉(如探索性数据分析,EDA)数据挖掘是数据驱动的探索性分析!2022年8月12日星期五6其他数据分析方法:商业智能其他数据分析方法:商业智能nE.F.Codd的数据分析模型的数据分析模型绝对模型(绝对模型(Categorical Model):依据预定义路径寻找原因,如查):依据预定义路径寻找原因,如查询询
6、解释模型(解释模型(Exegetical Model):依据多层次路径寻找原因,如多维):依据多层次路径寻找原因,如多维分析分析思考模型(思考模型(Contemplative Model):参数化路径,如场景分析):参数化路径,如场景分析公式模型(公式模型(Formulaic Model):模型化路径,如数据挖掘):模型化路径,如数据挖掘ReportingAd Hoc QueriesPredictive ModelingWhat happened?Why did it happen?What will happen?ROI应用复杂性应用复杂性Stage 3Stage 2Stage 1Human
7、 DiscoveryMachine-assisted Discovery现象 模型 误差数据挖掘寻找的是模型!2022年8月12日星期五7数据挖掘数据挖掘 KDD DM2022年8月12日星期五8KDDKDD:knowledge discovery in database数据数据建模建模验证验证应用应用2022年8月12日星期五9DMDM:datamingKDD的一个阶段KDD与DM等同2022年8月12日星期五10DM is like setting up a restaurant kitchen.Starting a restaurantkitchenData MiningFood/Inf
8、oCooks/TeamKitchen/DWHData Mining2022年8月12日星期五11数据挖掘与其他学科的关系数据挖掘与其他学科的关系Data MiningDatabase TechnologyStatisticsOtherDisciplinesInformationScienceMachineLearning(AI)Visualization2022年8月12日星期五12数据挖掘与数据挖掘与OLAPlOLAP(on-line analytical processing):l只能限制于少量的维度和数据类型只能限制于少量的维度和数据类型l用户控制的流程用户控制的流程l假设假设验证验证结
9、论结论lDM:l没有明确假设的前提下去挖掘信息、发现知识没有明确假设的前提下去挖掘信息、发现知识具具 有未知、有效、可实用三个特征有未知、有效、可实用三个特征 l能自动的发现隐藏在数据中的规律能自动的发现隐藏在数据中的规律l可以发现比可以发现比OLAP更复杂而细致的信息更复杂而细致的信息l未知未知归纳归纳结论结论l联系:联系:lOLAPDMlOLAM2022年8月12日星期五13数据挖掘与统计学数据挖掘与统计学l数据挖掘:数据挖掘:l数据挖掘利用了统计数据挖掘利用了统计、人工智能人工智能、数据库等、数据库等技术,技术,把这些高深复杂的技术封装起来,使人们不用自己把这些高深复杂的技术封装起来,使
10、人们不用自己掌握这些技术也能完成同样的功能,并且更专注于掌握这些技术也能完成同样的功能,并且更专注于自己所要解决的问题自己所要解决的问题 ;l不仅仅是统计分析不仅仅是统计分析;l统计分析:统计分析:l统计分析技术都基于完善的数学理论和高超的技巧,统计分析技术都基于完善的数学理论和高超的技巧,预测的准确度还是令人满意的,但对使用者的要求预测的准确度还是令人满意的,但对使用者的要求很高很高 l联系联系l统计分析方法学的延伸和扩展统计分析方法学的延伸和扩展 l很多的挖掘算法来源于统计学很多的挖掘算法来源于统计学2022年8月12日星期五14前景前景l预言:预言:l著名的咨询公司著名的咨询公司 Gar
11、tner Group在(在(2000年)一次高级年)一次高级技术调查将数据挖掘和人工智能列为技术调查将数据挖掘和人工智能列为“未来三到五年内未来三到五年内将对工业产生深远影响的五大关键技术将对工业产生深远影响的五大关键技术”之首,并且还之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位十大新兴技术前两位l国外现状:国外现状:l成熟、成熟、l产品:产品:SAS、CLEMENTINE、UNICA、各大数据库各大数据库l国内现状:国内现状:l起步起步l产品:大部分是实验室产品产品:大部分是实验室产品2022年8月12日星期五
12、15数据挖掘分类数据挖掘分类l挖掘对象挖掘对象基于数据库的挖掘基于数据库的挖掘基于基于web的挖掘的挖掘基于文本的挖掘基于文本的挖掘其他:音频、视频等多媒体数据库其他:音频、视频等多媒体数据库2022年8月12日星期五16数据挖掘分类数据挖掘分类l应用应用响应模型响应模型交叉销售交叉销售价值评估价值评估客户分群客户分群2022年8月12日星期五17数据挖掘分类数据挖掘分类l挖掘模式挖掘模式l预测型预测型(Predictive)Predictive)l描述型描述型(Descriptive)Descriptive)l实际作用可分为以下几种模式:实际作用可分为以下几种模式:分类:对没有分类的数据进行
13、分类;分类:对没有分类的数据进行分类;预测:用历史来预测未来;预测:用历史来预测未来;关联分析:关联规则;关联分析:关联规则;聚类:物以类聚;聚类:物以类聚;序列模式:序列模式:在多个数据序列中发现共同的行为模式在多个数据序列中发现共同的行为模式;描述和可视化:数据挖掘的结果的表示形式描述和可视化:数据挖掘的结果的表示形式;偏差分析:偏差分析:从数据分析中发现异常情况。从数据分析中发现异常情况。2022年8月12日星期五18数据挖掘分类数据挖掘分类l我的理解挖掘的算法分为三个层次:我的理解挖掘的算法分为三个层次:l模式:比如分类、聚类模式:比如分类、聚类l模型:决策树、神经网络模型:决策树、神
展开阅读全文