医学科研数据挖掘概述解析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学科研数据挖掘概述解析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 科研 数据 挖掘 概述 解析 课件
- 资源描述:
-
1、Epidemiology医学科研数据挖掘医学科研数据挖掘流行病学与卫生统计学系陈大方 联系方式:公卫楼520房间 电话:82802644(O)邮箱:Epidemiology尿布尿布 和和 啤酒啤酒 发生在沃尔玛的故事发生在沃尔玛的故事数据挖掘应用案例之一数据挖掘应用案例之一 Epidemiology关联规则挖掘n关联规则挖掘过程主要包含两个阶段,第一阶段从原始资料集合中,找出所有高频项目组。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。n第二阶段是从高频项目组产生关联规则,即找出最小支持度和最小置信度的关联规则。IDID项集项集1面包、尿布、牛奶、鸡蛋2面包、尿布、啤
2、酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐6面包、尿布、啤酒、可乐在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。Epidemiology课程内容安排课程内容安排数据挖掘概述(1)数据挖掘方法(3)数据挖掘实例(2)文章思路分析(1)Epidemiology数据挖掘数据挖掘概述概述一数据挖掘产生背景二数据挖掘应用领域三数据挖掘的定义和特点四数据挖掘基本过程五数据挖掘任务六数据挖掘方法七数据挖掘所发现的知识分类八数据挖掘在医学领域的应用九数据挖掘未来研究热
3、点Epidemiology一、数据挖掘产生背景一、数据挖掘产生背景 在1989年8月举行的第一届Knowledge Discovery in Database(KDD)国际学术会议上提出。1.现实需求 许多领域搜集积累了大量的数据,数据背后隐藏了许多具有决策意义的信息,为更好的利用这些数据,需要对其进行更高层次的分析。2.基础技术条件 (1)计算机技术和网络时代(强大的多处理器计算机)。(2)超大规模数据库的出现(海量数据搜集)。(3)数据挖掘算法。Epidemiology二、数据挖掘应用领域二、数据挖掘应用领域Banking(金融方面)13%(1)13%(1)Bioinformatics/B
4、iotech(生物信息)10%(2)10%(2)Direct Marketing/Fundraising(直销市场)10%(2)10%(2)eCommerce/Web(电子商务)5%5%Entertainment/News(零售业/市场营销)1%1%Fraud Detection(过程控制/质量监督)9%(3)9%(3)Insurance(保险)8%(4)8%(4)Investment/Stocks(投资)3%3%Manufacturing(制造行业)2%2%Medical/Pharma(医药)6%(5)6%(5)Retail(零售)6%(5)6%(5)Scientific data(科学数据
5、)9%(3)9%(3)Security(军事方面安全)2%2%Supply Chain Analysis(物流)1%1%Telecommunications(远程通信)8%(4)8%(4)Travel(运输)2%2%Other(其它)5%5%Epidemiology 三、数据挖掘的定义和特点三、数据挖掘的定义和特点 1.1.定义定义 从大量的、不完全的、有噪声的、模糊的、随机的、实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是在没有明确假设的前它是在没有明确假设的前提下去挖掘信息、发现知识。提下去挖掘信息、发现知识。没有假设没有假设盲目盲目2.2.特点
6、特点 是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。数据挖掘的过程是一个数据挖掘的过程是一个“发现发现”的过程的过程,而不而不是是“发明发明”的过程。的过程。Epidemiology四、数据挖掘基本过程四、数据挖掘基本过程Epidemiologyn数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。n数据的预处理:研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作的类型。n数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。n数据挖掘:对所得到的经过转
7、换的数据进行挖掘。n结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定。n知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。Epidemiology为什么要预处理数据?为什么要预处理数据?n存在不完整的、含噪声的和不一致的数据。预处理数据可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。n不完整数据不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其他数据没有包含在内只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经删除。此外,记录历史或修改的数
8、据可能被忽略。缺失的数据,特别是某些属性上缺少值的元组可能需要推导出来。n数据含噪声数据含噪声(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。n不一致的数据不一致的数据可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致的。Epidemiologyn数据的预处理主要包括数据描述、数据清理、数据集成和变换、数据归约 四个步骤。n数据描述:对于获得数据的总体印象至关重要。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。度量数据的中心趋势和度量数据的离散程度。
9、n数据清理:是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。n数据集成:是指合并来自多个数据存储的数据和可能需要转换成适于挖掘的形式。n数据归约:数据归约技术可以用来得到数据集的归约表示,它接近于保持数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘更有效,并产生相同或几乎相同的分析结果。EpidemiologyEpidemiology五、数据挖掘五、数据挖掘任务任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。1.1.关联分析关联分析(association analysis)(associa
10、tion analysis)关联规则挖掘是由rakesh apwal等人首先提出。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。Epidemiology2.2.聚类分析聚类分析(clustering)(clustering)聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分
11、布模式,以及可能的数据属性之间的相互关系。3.3.分类分类(classification)(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。Epidemiology4.4.预测预测(predication)(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。5.5.时间序列模式时间序列模式(time-
12、series pattern)(time-series pattern)时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列。挖掘的目的是才时间序列数据库中找出频繁出现的子序列。时间序列周期分析是指对周期模式的挖掘,即在时序数据库中找出重复出现的模式。6.6.偏差分析偏差分析(deviation)(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。Epidemiology1.1.关联分析法关联分析法2.2.决策树决策树3.3.人工神经网络人工神经网络
13、4.4.遗传算法遗传算法5.5.聚类分析聚类分析6.6.序列模式分析序列模式分析 六、挖掘方法六、挖掘方法Epidemiology1.1.关联分析法关联分析法 从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能够将一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。Epidemiology2.2.人工神经网络(人工神经网络(Artificial neural network,ANNANN)神经元网络的数据挖掘方
展开阅读全文