书签 分享 收藏 举报 版权申诉 / 33
上传文档赚钱

类型医学科研数据挖掘概述解析课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:3791987
  • 上传时间:2022-10-13
  • 格式:PPT
  • 页数:33
  • 大小:175.96KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《医学科研数据挖掘概述解析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    医学 科研 数据 挖掘 概述 解析 课件
    资源描述:

    1、Epidemiology医学科研数据挖掘医学科研数据挖掘流行病学与卫生统计学系陈大方 联系方式:公卫楼520房间 电话:82802644(O)邮箱:Epidemiology尿布尿布 和和 啤酒啤酒 发生在沃尔玛的故事发生在沃尔玛的故事数据挖掘应用案例之一数据挖掘应用案例之一 Epidemiology关联规则挖掘n关联规则挖掘过程主要包含两个阶段,第一阶段从原始资料集合中,找出所有高频项目组。高频的意思是指某一项目组出现的频率相对于所有记录而言,必须达到某一水平。n第二阶段是从高频项目组产生关联规则,即找出最小支持度和最小置信度的关联规则。IDID项集项集1面包、尿布、牛奶、鸡蛋2面包、尿布、啤

    2、酒、鸡蛋3牛奶、尿布、啤酒、可乐4面包、牛奶、尿布、啤酒5面包、牛奶、尿布、可乐6面包、尿布、啤酒、可乐在所有的交易纪录资料中,至少有5%的交易呈现尿布与啤酒这两项商品被同时购买的交易行为。在所有包含尿布的交易纪录资料中,至少有70%的交易会同时购买啤酒。Epidemiology课程内容安排课程内容安排数据挖掘概述(1)数据挖掘方法(3)数据挖掘实例(2)文章思路分析(1)Epidemiology数据挖掘数据挖掘概述概述一数据挖掘产生背景二数据挖掘应用领域三数据挖掘的定义和特点四数据挖掘基本过程五数据挖掘任务六数据挖掘方法七数据挖掘所发现的知识分类八数据挖掘在医学领域的应用九数据挖掘未来研究热

    3、点Epidemiology一、数据挖掘产生背景一、数据挖掘产生背景 在1989年8月举行的第一届Knowledge Discovery in Database(KDD)国际学术会议上提出。1.现实需求 许多领域搜集积累了大量的数据,数据背后隐藏了许多具有决策意义的信息,为更好的利用这些数据,需要对其进行更高层次的分析。2.基础技术条件 (1)计算机技术和网络时代(强大的多处理器计算机)。(2)超大规模数据库的出现(海量数据搜集)。(3)数据挖掘算法。Epidemiology二、数据挖掘应用领域二、数据挖掘应用领域Banking(金融方面)13%(1)13%(1)Bioinformatics/B

    4、iotech(生物信息)10%(2)10%(2)Direct Marketing/Fundraising(直销市场)10%(2)10%(2)eCommerce/Web(电子商务)5%5%Entertainment/News(零售业/市场营销)1%1%Fraud Detection(过程控制/质量监督)9%(3)9%(3)Insurance(保险)8%(4)8%(4)Investment/Stocks(投资)3%3%Manufacturing(制造行业)2%2%Medical/Pharma(医药)6%(5)6%(5)Retail(零售)6%(5)6%(5)Scientific data(科学数据

    5、)9%(3)9%(3)Security(军事方面安全)2%2%Supply Chain Analysis(物流)1%1%Telecommunications(远程通信)8%(4)8%(4)Travel(运输)2%2%Other(其它)5%5%Epidemiology 三、数据挖掘的定义和特点三、数据挖掘的定义和特点 1.1.定义定义 从大量的、不完全的、有噪声的、模糊的、随机的、实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。它是在没有明确假设的前它是在没有明确假设的前提下去挖掘信息、发现知识。提下去挖掘信息、发现知识。没有假设没有假设盲目盲目2.2.特点

    6、特点 是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程。数据挖掘的过程是一个数据挖掘的过程是一个“发现发现”的过程的过程,而不而不是是“发明发明”的过程。的过程。Epidemiology四、数据挖掘基本过程四、数据挖掘基本过程Epidemiologyn数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。n数据的预处理:研究数据的质量,为进一步分析作准备。并确定将要进行的挖掘操作的类型。n数据的转换:将数据转换成一个分析模型。这个分析模型是针对挖掘算法建立的。建立一个真正适合挖掘算法的分析模型是数据挖掘成功的关键。n数据挖掘:对所得到的经过转

    7、换的数据进行挖掘。n结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定。n知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。Epidemiology为什么要预处理数据?为什么要预处理数据?n存在不完整的、含噪声的和不一致的数据。预处理数据可以改进数据的质量,从而有助于提高其后的挖掘过程的精度和性能。n不完整数据不完整数据的出现可能有多种原因。有些感兴趣的属性,如销售事务数据中顾客的信息,并非总是可用的。其他数据没有包含在内只是因为输入时认为是不重要的。相关数据没有记录可能是由于理解错误,或者因为设备故障。与其他记录不一致的数据可能已经删除。此外,记录历史或修改的数

    8、据可能被忽略。缺失的数据,特别是某些属性上缺少值的元组可能需要推导出来。n数据含噪声数据含噪声(具有不正确的属性值)可能有多种原因。收集数据的设备可能出故障;人或计算机的错误可能在数据输入时出现;数据传输中的错误也可能出现。n不一致的数据不一致的数据可能是由命名约定或所用的数据代码不一致,或输入字段(如日期)的格式不一致而导致的。Epidemiologyn数据的预处理主要包括数据描述、数据清理、数据集成和变换、数据归约 四个步骤。n数据描述:对于获得数据的总体印象至关重要。描述性数据汇总技术可以用来识别数据的典型性质,突显哪些数据值应当视为噪声或离群点。度量数据的中心趋势和度量数据的离散程度。

    9、n数据清理:是指填充缺失值,光滑噪声并识别离群点,纠正数据中的不一致。n数据集成:是指合并来自多个数据存储的数据和可能需要转换成适于挖掘的形式。n数据归约:数据归约技术可以用来得到数据集的归约表示,它接近于保持数据的完整性,但数据量比原数据小得多。与非归约数据相比,在归约的数据上进行挖掘,所需的时间和内存资源更少,挖掘更有效,并产生相同或几乎相同的分析结果。EpidemiologyEpidemiology五、数据挖掘五、数据挖掘任务任务 数据挖掘的任务主要是关联分析、聚类分析、分类、预测、时序模式和偏差分析等。1.1.关联分析关联分析(association analysis)(associa

    10、tion analysis)关联规则挖掘是由rakesh apwal等人首先提出。两个或两个以上变量的取值之间存在某种规律性,就称为关联。数据关联是数据库中存在的一类重要的、可被发现的知识。关联分为简单关联、时序关联和因果关联。关联分析的目的是找出数据库中隐藏的关联网。一般用支持度和可信度两个阀值来度量关联规则的相关性,还不断引入兴趣度、相关性等参数,使得所挖掘的规则更符合需求。Epidemiology2.2.聚类分析聚类分析(clustering)(clustering)聚类是把数据按照相似性归纳成若干类别,同一类中的数据彼此相似,不同类中的数据相异。聚类分析可以建立宏观的概念,发现数据的分

    11、布模式,以及可能的数据属性之间的相互关系。3.3.分类分类(classification)(classification)分类就是找出一个类别的概念描述,它代表了这类数据的整体信息,即该类的内涵描述,并用这种描述来构造模型,一般用规则或决策树模式表示。分类是利用训练数据集通过一定的算法而求得分类规则。分类可被用于规则描述和预测。Epidemiology4.4.预测预测(predication)(predication)预测是利用历史数据找出变化规律,建立模型,并由此模型对未来数据的种类及特征进行预测。预测关心的是精度和不确定性,通常用预测方差来度量。5.5.时间序列模式时间序列模式(time-

    12、series pattern)(time-series pattern)时间序列模式是指从研究系统的指标特征数据中统计出的某种经常发生的时间序列。挖掘的目的是才时间序列数据库中找出频繁出现的子序列。时间序列周期分析是指对周期模式的挖掘,即在时序数据库中找出重复出现的模式。6.6.偏差分析偏差分析(deviation)(deviation)在偏差中包括很多有用的知识,数据库中的数据存在很多异常情况,发现数据库中数据存在的异常情况是非常重要的。偏差检验的基本方法就是寻找观察结果与参照之间的差别。Epidemiology1.1.关联分析法关联分析法2.2.决策树决策树3.3.人工神经网络人工神经网络

    13、4.4.遗传算法遗传算法5.5.聚类分析聚类分析6.6.序列模式分析序列模式分析 六、挖掘方法六、挖掘方法Epidemiology1.1.关联分析法关联分析法 从关系数据库中提取关联规则是几种主要的数据挖掘方法之一。挖掘关联是通过搜索系统中的所有事物,并从中找到出现条件概率较高的模式。关联实际上就是数据对象之间相关性的确定,用关联找出所有能够将一组数据项相联系的规则,这种规则的建立并不是确定的关系,而是一个具有一定置信度的可能值,即事件发生的概率。Epidemiology2.2.人工神经网络(人工神经网络(Artificial neural network,ANNANN)神经元网络的数据挖掘方

    14、法是通过模仿人的神经系统来反复训练学习数据集,从待分析的数据集 中发现用于预测和分类的模式。神经元网络对于复杂情况仍能得到精确的预测结果,而且可以处理类别和连续变量,但神经元网络不适合处理高维变量,其最大的缺点是不透明,因为其无法解释结果是如何产生的以及在推理过程中所用的规则。神经元网络适合结果比可理解性更重要的分类和预测的复杂情况,可用于聚类、分类和序列模式。Epidemiology3.3.决策树(决策树(Decision Tree,DTDecision Tree,DT)根据训练数据、集中数据的不同取值建立树的分支,形成决策树。与神经元网络最大的不同在于其决策制定的过程是可见的,可以解释结果

    15、是如何产生的。决策树一般产生直观、易理解的规则,而且分类不需太多计算时间,适合对记录分类或结果的预测,尤其适合于当目标是生成易理解、可翻译成SQL 或自然语言的规则时。决策树也可用于聚类、分类及序列模式,其应用的典型例子是CART(回归决策树)方法。Epidemiology4.4.遗传算法(遗传算法(Genetic algorithm,GAGA)其基本观点是适者生存原理,用于数据挖掘中则常把任务表示为一种搜索问题,利用遗传算法强大的搜索能力找到最优解。实际上遗传算法是模仿生物进化的过程,反复进行选择、交叉和突变等遗传操作,直至满足最优解。遗传算法可处理许多数据类型,同时可并行处理各种数据,常用

    16、于优化神经元网络,解决其他技术难以解决的问题,但需要的参数太多,对许多问题编码困难,一般计算量大。Epidemiology5.5.聚集分析(聚集分析(Cluster analysis,CA)聚集是把整个数据库分成不同的群组。它的目的是要群与群之间差别很明显,而同一个群之间的数据尽量相似。此外聚类分析可以作为其他算法(如特征和分类等)的预处理步骤,之后这些算法再在生成的簇上进行处理。与分类不同,在开始聚集之前不知道要把数据分成几组,也不知道怎么分(依照哪几个变量)。因此在聚集之后要有一个对业务很熟悉的人来解释这样分群的意义。很多情况下一次聚集得到的分群对某个业务来说可能并不好,这时就需要删除或增

    17、加变量以影响分群的方式,经过几次反复之后才能最终得到一个理想的结果。聚类方法主要有两类:统计方法和神经网络方法。Epidemiology6.6.序列模式分析序列模式分析 序列模式分析和关联分析相似,但侧重点在于分析数据间的前后序列关系。序列模式分析描述的问题是:在给定交易序列数据库中,每个序列是按照交易时间排列的一组交易集,挖掘序列函数作用在这个交易序列数据库上,返回该数据库中出现的高频序列。在进行序列模式分析时,同样也需要由用户输入最小置信度和最小支持度。Epidemiology七、数据挖掘所发现的知识分类七、数据挖掘所发现的知识分类 数据挖掘将数据转化为知识。其目的是从数据中揭示一些新的、

    18、有用的信息,数据挖掘所发现的知识最常见的有以下几类:(1)广义知识(generalization)广义知识指类别特征的概括性描述知识。根据数据的广义知识指类别特征的概括性描述知识。根据数据的微观特性发现其表征的、带有普遍性的、较高层次概念微观特性发现其表征的、带有普遍性的、较高层次概念的、中观和宏观的知识的、中观和宏观的知识,反映同类事物共同性质反映同类事物共同性质,是对是对数据的概括、精炼和抽象。数据的概括、精炼和抽象。(2)关联知识(association)它反映一个事件和其他事件之间依赖或关联的知识。它反映一个事件和其他事件之间依赖或关联的知识。如果两项或多项属性之间存在关联如果两项或多

    19、项属性之间存在关联,那么其中一项的属那么其中一项的属性值就可以依据其他属性值进行预测。性值就可以依据其他属性值进行预测。Epidemiology(3)分类知识(classification&clustering)它反映同类事物共同性质的特征型知识和不同事它反映同类事物共同性质的特征型知识和不同事物之间的差异型特征知识。物之间的差异型特征知识。(4)预测型知识(prediction)它根据时间序列型数据它根据时间序列型数据,由历史的和当前的数据由历史的和当前的数据去推测未来的数据去推测未来的数据,也可以认为是以时间为关键属性也可以认为是以时间为关键属性的关联知识。的关联知识。(5)偏差型知识(d

    20、eviation)偏差型知识是对差异和极端特例的描述偏差型知识是对差异和极端特例的描述,揭示事揭示事物偏离常规的异常现象物偏离常规的异常现象,如标准类外的特例如标准类外的特例,数据聚数据聚类外的离群值等。类外的离群值等。Epidemiology八、数据挖掘在医学中应用八、数据挖掘在医学中应用1.数据挖掘在生物医学中的应用 DNA序列模式分析:对分别来自带病的和健康组织的基因序列进行比较以识别两类基因间的差异。基因序列识别的关联分析:关联分析方法可用于帮助确定在目标样本中同时出现的基因种类,此类分析将有助于发现基因组和对基因间的交叉与联系的研究。不同阶段的致病基因的路径分析:引起一种疾病的基因可

    21、能不止一个,不同基因可能在不同阶段起着作用。DNA序列分类:区分DNA 序列中的外显子和内含子。Epidemiology2.数据挖掘在疾病诊断中的应用 在临床中有些疾病错综复杂,数据挖掘的有关分类分析可以应用于疾病的诊断。3.数据挖掘在疾病相关因素分析中的应用 在病案信息库中有大量的关于病人的病情和病人的个人信息,包括年龄、性别、居住地、职业、生活情况等,对数据库中的信息进行关联规则分析可以发现有意义的关系及模式。4.数据挖掘在疾病预测中的应用 根据病人的病史预测病情的发展趋势,确定某些疾病的发展模式,从而有针对性的预防疾病的发生或估计疾病的预后。5.数据挖掘在医学图像中的应用 医学领域中越来

    22、越多地应用图像作为疾病诊断的工具,如CT、MRI等数据挖掘可以应用于医学图像的分析。Epidemiology 6.数据挖掘在医院管理中的应用 随着医疗制度改革的深入开展,医院管理者比以往更关心医疗及管理的质量以及费用-效益情况。数据挖掘可以帮助发现有关提高临床服务效率、质量以及效益潜力的证据。7.数据挖掘在公共卫生领域中的应用 数据挖掘还可以用于传染病流行的预报。利用数据的分类与聚类、趋势预测等技术对时序数据和序列数据进行数据挖掘,开展灾变预测。8.数据挖掘在其他方面的应用 数据挖掘在毒理学、新的药物副作用发现、卫生经济评价等方面都有广阔的用途。Epidemiology九、数据挖掘九、数据挖掘

    23、未来研究热点未来研究热点 1.1.网站的数据挖掘(网站的数据挖掘(Web site data miningWeb site data mining)随着Web技术的发展,各类电子商务网站风起云涌,建立起一个电子商务网站并不困难,困难的是如何让您的电子商务网站有效益。要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。而电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件(Logfiles)和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。Epidemiology2

    24、.2.生物信息或基因的数据挖掘生物信息或基因的数据挖掘 生物信息或基因数据挖掘则完全属于另外一个领域,在商业上很难讲有多大的价值,但对于人类却受益非浅。例如,基因的组合千变万化,得某种病的人的基因和正常人的基因到底差别多大?能否找出其中不同的地方,进而对其不同之处加以改变,使之成为正常基因?这都需要数据挖掘技术的支持。与通常的数据挖掘相比,无论在数据的复杂程度、数据量还有分析和建立模型的算法而言,都要复杂得多。从分析算法上讲,更需要一些新的和好的算法。现在很多厂商正在致力于这方面的研究。但就技术和软件而言,还远没有达到成熟的地步。Epidemiology3.3.文本的数据挖掘(文本的数据挖掘(

    25、TextualminingTextualmining)人们很关心的另外一个话题是文本数据挖掘。举个例子,在客户服务中心,把同客户的谈话转化为文本数据,再对这些数据进行挖掘,进而了解客户对服务的满意程度和客户的需求以及客户之间的相互关系等信息。从这个例子可以看出,无论是在数据结构还是在分析处理方法方面,文本数据挖掘和前面谈到的数据挖掘相差很大。文本数据挖掘并不是一件容易的事情,尤其是在分析方法方面,还有很多需要研究的专题。目前市场上有一些类似的软件,但大部分方法只是把文本移来移去,或简单地计算一下某些词汇的出现频率,并没有真正的分析功能。随着计算机计算能力的发展和业务复杂性的提高,数据的类型会越

    26、来越多、越来越复杂,数据挖掘将发挥出越来越大的作用。Epidemiology 数据挖掘是一个充满希望的研究领域,是一个可以从数据中有效地提取信息、从信息中及时地发现知识的技术。数据挖掘应用的成功是要求对期望解决问题的领域有深刻的了解,理解数据,了解其过程,才能对结果找出合理的解释。数据挖掘正日益广泛和深入,其发展前景会更加辉煌。Epidemiology推荐阅读文章推荐阅读文章1.决策树在天津市某区公务员健康状况影响因素分析中的应用。2.生物标志物的蛋白组学研究-高通量质谱分析3.数据挖掘技术在现场流行病学调查资料中的应用4.数据挖掘在疫苗风险监测中的应用研究5.心脑血管疾病生化检验数据挖掘和报告解读

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:医学科研数据挖掘概述解析课件.ppt
    链接地址:https://www.163wenku.com/p-3791987.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库