数据挖掘在中医药中应用课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据挖掘在中医药中应用课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 中医药 应用 课件
- 资源描述:
-
1、4/14/20221 China Academy of Chinese Medical SciencesChina Academy of Chinese Medical Sciences数据挖掘在中医药研究中的应用中医药信息研究所数据挖掘的相关概念数据挖掘的相关概念数据挖掘在中医药领域中的应用数据挖掘在中医药领域中的应用内容课课容容内内程程2产生数据挖掘的产生3o 什么激发了数据挖掘? “数据爆炸”但“知识贫乏”4信息社会迅猛发展sz-数据激增-发现隐藏信息-利用数据-获取知识-为我所用4/14/202271989年 11届国际人工智能研讨会 首次提出了基于数据挖掘的知识发现 由美国人工智能协
2、会主办的知识发现国际研讨会已经召开了8次,规模由原来的专题讨论会发展到国际学术大会国内:1993年国家自然科学基金首次支持该领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展知识发现的基础理论及其应用研究,2010年国家自然基金资助数据挖掘研究o 66项目数据挖掘项目o 西医:基于多模式序列超声图像识别系统诊断乳腺癌的方法学研究田家玮,哈尔滨医科大学o 中医:o应用数据挖掘技术研究中医药治疗再生障碍性贫血的组方规律向阳,中国人民解放军第210医院 o基于智能计算的中医方剂基础治法模型的构建任廷革,北京中医药大学o基于数据挖掘的针灸法效应特异性基本规律及特点的研究贾春生,河北医科大学o中
3、药新药有效核心处方发现的随机对照忙发设计方法研究何丽云,中国中医科学院中医临床基础医学研究所4/14/202284/14/20229数据挖掘:Data Mining. 数据中发现有效的、新颖的、潜在有用的,并且最终可以被读懂的模式的过程 模式,即pattern。其实就是解决某一类问题的方法论。即把解决某类问题的方法总结归纳到理论高度,那就是模式。例如:比如:孙子说“至死地而后生”是战争模式三十六计“走为上”、“空城计”也是战争模式。4/14/202210数据挖掘和知识发现(KDD KNOWLEDGE DISCOVERY IN DATABASE)l有人认为是一样的只是不同领域称呼不同l数据挖掘是
4、知识发现的过程的一部分数据挖掘与数据分析l数据挖掘是一个动态过程,能够比数据分析更智能地使用数据仓库数据挖掘与统计学l统计学推断是假设驱动的,即形成假设并在数据上验证它。而数据挖掘是发现驱动的,即自动地从数据中提取模式和假定o 数据挖掘的数量常常很巨大 面临的常常是大型数据库,而且常常为其他目的而收集好的数据。 o 发现隐含的知识 数据挖掘工作者不愿把先验知识预先嵌入算法,是在没有前提假设的情况下,从事信息的挖掘与知识的提取。4/14/202211o 关联分析o 分类o 聚类分析o 介绍上述功能的一些具体计算方法。4/14/202212 关联分析o association analysiso
5、关联分析是发现关联规则。o 两个或两个以上变量的取值之间存在某种规律性,就称为关联。o 关联分析的挖掘过程就是发现大量数据中项集之间有趣的关联或相关联系。4/14/202214请NCR公司构建数据仓库记录销售数据每一位顾客哪一天在哪一家连锁店购买了哪些商品啤酒与尿布4/14/202215购物篮分析:即分析哪些商品最有希望被顾客一起购买。o 每逢周末与尿布一起购买最多的商品是16啤酒!原因:美国的太太们常叮嘱她们的丈夫下班后为小孩买尿布,而丈夫们在买尿布后又随手带回了他们喜欢的啤酒。 o 举例: 沃尔玛:通过关联分析这一数据挖掘方法,发现“啤酒”及“尿布”两件物品总是一起被购买。此结果蕴含着巨大
6、的商业价值:如何完成?o 通过支持度和置信度高低来衡量关联的强度。 什么是支持度?如何计算? 什么是置信度?如何计算?沃尔玛超市为范例o 顾客买东西很多,有很多购买收据记录。收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本o 支持度()计算公式A商品和 B商品共同出现在一个收据次数总次数收据1:啤酒、面包、方便面、盐、
7、收据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本o 置信度(confidence:AB)4/14/202222收据1:啤酒、面包、方便面、盐、收据2:陈皮、可乐、米、面包、盐收据3:面包 、被子、枕头、收据4: 椅子、笔记本收据5:可乐、椅子、枕头、面包收据6:面包、笔记本频繁子集筛选-获得挖掘结果置信度置信度支持度支持度商品1,商品290%80%商品1,商品370%40%商品4,商品580%89%商品6,商品840%50%商品7,商品930%20%.关联分析特点o 可以从大量数据中发现有趣的关联4/14/20
8、2224聚类分析o clusteringo 将异质总体分成为同质性的类别o 根据数据自动产生各个类别o 例如:作者群的自动聚类。4/14/202225聚类如何实现:从复杂数据中提取简单的分组结构26根据采集的与性别相关特征信息:衣着,头发等自动聚成若干类4/14/2022274/14/2022相似度o 聚类,是把最相似的数据聚结在一起形成类别。o 通常最常用的计算方式就是“欧式距离”欧式距离表示多维空间的几何距离:例如:4/14/202228A人物像人物像B人物像人物像裙子10头发41衣着鲜艳10欧式距离计算4/14/202229裙子x头发x衣着鲜艳zA人物像人物像B人物像人物像裙子10头发4
9、1衣着鲜艳10欧式距离欧式距离计算-完成相似度度量o 公式:DISTANCE(A,B)=3.31 注意的是最相近的值(一样)一定是04/14/202230A人物像人物像B人物像人物像裙子10头发41衣着鲜艳10计算相似度后如何聚类?4/14/2022314/14/2022计算相似度后如何聚类?(自下而上的层次聚类法)o 有了具体相似度量后,每两个对象之间都形成一个相似度值。4*4的矩阵4/14/20223201011205340先把最相近的聚类到一起变成一簇和其他对象再进行相似度计算在数学上,矩阵是指纵横排列的二维数据表格。matrix两个合并在一起的簇怎么和其他对象比较?3*3的矩阵有很多计
10、算方法:介绍单连接:D(c1,c2)=Mind(o,O)D( , )= Mind( , ),d( , )=24/14/2022330?0?4001011 2 053 402114/14/202234o 有很多规定定义这种计算。l 单连接取最近值l 完全连接取最远值l 。020340o 聚类完成4/14/202235030聚类分析特点o 是物以类聚的一种统计分析方法。用于对事物类别的面貌尚不清楚,甚至在事前连总共有几类都不能确定的情况下进行分类。o 在中医药中应用:一组某病人,利用聚类,聚集成几类,推断出该病常见证型有哪些?4/14/202236分类o Classificationo 即为按照分
11、析对象的属性分门别类加以定义,建立类别。o 例如:银行贷款用户:分为高风险、中风险、低风险三类用户。如有申请贷款者,根据所填写信息,利用数据挖掘方法,划分其是三类用户中那一类。4/14/202237主要介绍关于分类的两种方法o 贝叶斯模型o 决策树4/14/202238贝叶斯模型o 14天打网球情况。o 14天不同天气情况下打网球的情况o 分类目的:根据新的一天天气,决定是否打网球4/14/202239天气天气晴多云雨yes243No302温度温度热温暖凉爽yes243No221湿度湿度高正常yes36no41有风有风否是yes63no23打网球打网球YESNO95实例:根据以往打网球的情况,
12、看看根据新一天的天气情况,能否打网球?o 目的:o 给出新一天的气候:看看是否打网球?o 贝叶斯模型利用概率的方式计算:就是在天气(晴)=YES , 气温(凉爽)=YES , 湿度(高)=YES ,有风 =YES的条件下:打网球是否为YES? 4/14/202240天气天气气温气温湿度湿度有风有风晴凉爽高是计算过程转换14天打网球情况为概率表o 14天不同天气情况下打网球的情况 4/14/202241天气天气晴多云雨yes243No302温度温度热温暖凉爽yes243No221湿度湿度高正常yes36no41有风有风否是yes63no23打网球打网球yes9No5天气天气晴多云雨yes2/94
13、/93/9No3/502/5温度温度热温暖凉爽yes2/94/93/9No2/52/51/5湿度湿度高正常yes3/96/9no4/51/5有风有风否是yes6/93/9no2/53/5打网球打网球yes9/14No5/14天气天气晴多云雨yes2/94/93/9No3/502/5温度温度热温暖凉爽yes2/94/93/9No2/52/51/5湿度湿度高正常yes3/96/9no4/51/5有风有风否是yes6/93/9no2/53/5打网球打网球yes9/14No5/14o YES的概率(红色)=2/9*3/9*3/9*3/9*9/14=0.0053o NO的概率(绿色)=3/5*1/5*4
14、/5*3/5*5/14=0.0206YES+NO=1,经过归一化处理YES=20.5%,NO=79.5%4/14/202242贝叶斯模型特点o 所有条件变量对于分类均是有用的o 先验知识的正确和丰富和后验知识的丰富和正确,能直接影响分类的准确性在中医药医学中范例应用于专家系统诊断。 根据症状,推断出诊断。4/14/202243决策树o 决策树(decision tree) 每个决策或事件都可能引出两个或多个事件,导致不同的结果,把这种决策分支画成图形很像一棵树的枝干,故称决策树o 例:根据表格情况形成分类树4/14/202244性别性别年龄年龄血压血压药物药物1男20正常A2女73正常B3男3
15、7高A4男33低B5女48高A药物B血压年龄药物A药物B药物A高正常低4040如何解读决策树信息 如果血压高,则采用药物A 如果血压低,则采用药物B 如果血压正常并且年龄小于等于40,则采用药物A,否则采用药物B.4/14/202245药物B血压年龄药物A药物B药物A高正常低4040产生疑问如何计算p 节点如何划分? 为什么先血压,后年龄?p 分裂变量的界限为什么以40岁为界限?4/14/202246药物B血压年龄药物A药物B药物A高正常低4040介绍其中一个ID3算法计算决策树o 14天打网球情况。o 14天不同天气情况下打网球的情况o 分类目的:根据新的一天天气,决定是否打网球4/14/2
16、02247天气天气晴多云雨yes243No302温度温度热温暖凉爽yes243No221湿度湿度高正常yes36no41有风有风否是yes63no23打网球打网球YESNO9514天具体打网球情况:序号序号天气天气气温气温湿度湿度有风有风打网球打网球1晴热高无NO2晴热高有NO3多云热高无YES4雨温暖高无YES5雨凉爽正常无YES6雨凉爽正常有NO7多云凉爽正常有YES8晴温暖高无NO9晴凉爽正常无YES10雨温暖正常无YES11晴温暖正常有YES12多云温暖高有YES13多云热正常无YES14雨温暖高有NO48每一个因素形成一个决策树分支天气天气晴多云雨yes243No3024/14/20
17、2249基于天气划分决策树基于天气划分决策树天气1:NO2:NO8:NO9:YES11:YES3:YES7:YES12:YES13:YES4:YES5:YES6:NO10:YES14:NO晴多云雨其他因素也形成了一个树的分支4/14/202250气温1:NO2:NO8:YES13:YES4:YES8:NO10:YES11:YES12:YES14:NO5:YES6:NO7:YES9:YES热温暖凉爽有风1:YES3:NO4:YES5:YES8:YES9:NO10:YES13:YES2:NO6:NO7:YES11:YES12YES14:NOfalsetrue湿度1:NO2:NO3:YES4:YES
展开阅读全文