医学大数据分析策略与数据挖掘课件.ppt

上传人（卖家）：三亚风情

文档编号：2192614

上传时间：2022-03-19

格式：PPT

页数：42

大小：6.26MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《医学大数据分析策略与数据挖掘课件.ppt》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 医学数据分析策略挖掘课件

资源描述：: 1、郭秀花郭秀花-医学大数据分医学大数据分析策略与数据挖掘析策略与数据挖掘2提纲中心概况中心概况医学大数据及其分析策略1中心概况中心概况2数据挖掘软件及其实现方法3数据挖掘方法简介及其应用3医学大数据及其分析策略4大数据（Big Data）数据量规模巨大到无法通过人工，在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。5模拟式存量模拟式存量数字式存量数字式存量2000年以前大部分数据是analog data （模拟式数据）以书、报纸、录像带等存储。特点：数据量较小。数据量较小。2000年以后digital data （数字式数据）大大增加以CD、DVD、硬盘等存储。特点：数据量
2、巨大。数据量巨大。20002000年年Source: Researchers at the University of Southern California took four years - 1986, 1993, 2000 and 2007 - and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post大数据时代的来临大数据时代的来临6医学大数据的应用意义生物标志物识别生物标志物识别利用大数据识
3、别有关疾病发生、预后或治疗效果的生物标志物组学研究基因组学，表观组学，蛋白组学，代谢组学，糖基组学，等环境因素，个体行为与各组学关联7公共卫生监测：传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。医学大数据的应用意义8健康管理：通过可穿戴设备对个体体征数据的实时、连续监测提供个体化疾病预防和治疗方案医疗协同和临床决策支持：通过建立专用数据库，调用患者的基因数据、病历信息等大量医学参考数据，辅助疾病的诊断与治疗，实现个体化诊治原则医学大数据的应用意义9可视化信息：可视化信息：数据与信息图像、多媒体信息可视化，更清晰有效地传达与沟通大数据包含的生物医学信息。医学大数据的应
4、用意义10在生物医学研究领域，大数据：环境气象学数据医学影像数据基因、蛋白等组学数据大型临床资料复杂的生物和环境因素研究生物医学大数据的只要特点：高维11过去假设驱动，收集数据，分析寻找答案数据大多是结构化的，可以分析现在数据驱动，挖掘寻找问题数据多是非结构化的，难以分析。科学问题处理方式12条件正态性正态性线性、齐性线性、齐性独立性独立性足够大的样本量足够大的样本量变量的变量的2020倍倍 . .方法多元线性回归分析多元线性回归分析 LogisticLogistic回归分析回归分析 CoxCox回归分析回归分析聚类分析聚类分析判别分析判别分析主成分分析主成分分析因子分
5、析因子分析广义线性模型广义线性模型 . . 传统的多元统计方法难以处理和分析医学大数据高维、非线性、非高斯等数据，采用数据挖掘方法，可以提供更高的预测精度。常用的医学多元统计学应用受到制约13数据挖掘方法简介及其应用14 数据挖掘：数据挖掘：是在从大量的数据中提取隐含的、是在从大量的数据中提取隐含的、事先未知的，但又是潜在有用的信息和知识的过程。事先未知的，但又是潜在有用的信息和知识的过程。14大数据源定义研究问题模型应用建立模型模型评估数据准备提取数据15数据挖掘方法概述数据挖掘方法概述数据挖掘属性筛选属性筛选关联分析关联分析分类预测分类预测回归预测回归预测聚类分析聚类分析随机森林神经网
6、络分类决策树分布估计聚类期望最大化EMK均值聚类层次聚类支持向量机回归回归组合模型广义线性回归神经网络回归LASSO分类回归树支持向量机高维数据降维属性关联分析购物篮分析朴素贝叶斯16 肺结节良恶性的判定是肺结节良恶性的判定是CTCT图像诊断肺癌中图像诊断肺癌中的一个难点和关键点。在实际的临床中，肺癌的一个难点和关键点。在实际的临床中，肺癌被确诊时被确诊时80%80%以上已属中晚期。以上已属中晚期。数据挖掘方法应用实例数据挖掘方法应用实例17矢状位冠状位轴状位矢状位图像库冠状位图像库轴状位图像库三正交位成像1801基本信息年龄、性别等轴位纹理冠状位纹理矢状位纹理02 既往史肿瘤病史粉尘接触史
7、遗传病史吸烟史等淋巴结是否肿大边缘是否光滑是否分叶结节位置有无空泡征等数据集合03影像学检查CT图像纹理04高维大数据库（变量约1000，样本336例）19 数据数据挖掘主要分类预测方法挖掘主要分类预测方法基于肺结节纹理基于肺结节纹理鉴别诊断肺癌鉴别诊断肺癌1920各纹理产生30，40，50，60个子代（即纹理分别为420，560，700，840个）。每个纹理子代分布为正态分布，均值和标准差与轴位CT图像均值相近；设定每个纹理内部子代之间的相关系数为r=0.1，0.2，0.3，0.4;分别产生2组数据，设定两组各个变量均值之间的差值为d(0.01-0.1)。 Monte Carlo模
8、拟分析结果模拟分析结果2021Monte Carlo模拟分析结果模拟分析结果纹理相关系数为纹理相关系数为0.10.1时，时，840840个纹理值各个纹理值各预测模型拟合结果预测模型拟合结果纹理相关系数为纹理相关系数为0.20.2时，时， 840840个纹理值各个纹理值各预测模型拟合结果预测模型拟合结果2122支持向量机支持向量机支持向量机（Support Vector Machine, SVM）是美国Vapnik 教授于1963年提出的。在解决小样本、非线性和高维模式识别问题中表现出许多优势，并在一定程度上克服了“维数灾难”和“过学习”等问题。在模式识别、回归分析、函数估计、时间序列预测等
9、领域，都得到了长足的发展。Vapnik23最优分类(超平)面 SVM的机理是寻找一个满足分类要求的最优分类超平面，使得该超平面在保证分类精度的同时，能够使超平面两侧的空白区域最大化。0wxb24广义最优分类面-25l当线性不可分时，SVM的主要思想是将输人向量映射到一个高维的特征向量空间，并在该特征空间中构造最优分类面。 12x,.,Tlxxxx代替输入向量x，则可以得到最优分类函数为： 1sgnsgnliiiif xwxba yxxb 26 Gaussian 核函数： Polynom核函数 Vanilladot线性核函数双曲切线核函数 Laplacian 核函数 Bessel核函数dTc
10、yx.kyxdTc)y(ax.kyxc)y(axtanh.kTyx核核函函数数SVM中不同的内积核函数将形成不同的算法。27预测模型不同判别方法结果预测模型不同判别方法结果投票法：投票法：选取多数类结果（例如：2个或者2个以上预测模型结果为恶性）作为最后病例的预测结果；并联法：并联法：只要有一个预测模型结果判断为恶性，此病人最终判断为恶性结果，否则为良性；串联法：串联法：只有3个预测模型同时判断为恶性，此病人最终判断为恶性结果，否则为良性；综合法：综合法：合并轴状位、冠状位、矢状位数据集，建立一个预测模型，其结果作为最终结果。病例基本信息分析结果病例基本信息分析结果良性恶性统计值
11、P值性别N(Missing)84(0)252(0)0(卡方检验)1.0000 女性 n(%)50(59.52)150(59.52) 男性 n(%)34(40.48)102(40.48) 年龄N(Missing)84(0)252(0)3.45(秩和检验)0.0006 Mean(Std)54.10(13.57)59.90(12.68) Median(Q1Q3)57(46.563)61(5369.5) MinMax21802583 良恶性病例人口学特征分析良恶性病例人口学特征分析29不同评价方法支持向量机预测模型结果不同评价方法支持向量机预测模型结果利用病例人口学特征、环境遗传信息和结节形态利用病
12、例人口学特征、环境遗传信息和结节形态学信息等综合性信息，建立支持向量机预测模型。学信息等综合性信息，建立支持向量机预测模型。基于人口学、环境遗传和结节形态学信息建立预测模型结果基于人口学、环境遗传和结节形态学信息建立预测模型结果结论：基于三正交位CT图像，结合多方面信息，采用大数据支持向量机分类分类预测方法，可以有效提高肺癌诊断正确率，辅助放射科医生进行辅助诊断肺癌。32数据挖掘软件及其实现方法33Your textR是统计领域广泛使用的诞生于1980年左右的S语言的一个分支。R是一个有着统计分析功能及强大作图功能的软件系统，是由奥克兰大学统计学系的Ross Ihaka和Robert Gen
13、tleman共同创立。在R的官方网址上，选择网站镜像mirrors.html2R软件3134R R软件软件 R编辑器：编辑程序选择运行R Console：运行过程提示错误等35支持向量机支持向量机R R语言实现语言实现nlibrary(kernlab) /加载支持向量机程序包/nsetwd(“D:ku”) /设置当前数据库路径/ndatayuce=read.csv(“a.csv”,header=T)/导入预测集数据/ndataxunlian=read.csv(“b.csv”,header=T) )/导入训练集数据/nsvmModel - ksvm(as.matrix(dataxunli
14、an1:5),nas.factor(dataxunlian$x),ntype=“C-svc”,kernel=“rbfdot”,C=10,cross=4) )/核函数选择/npre=predict(svmModel,datayuce1:5)nwrite.csv(data.frame(pre,class=datayuce$x, zu=datayuce$no),file=result.csv) )/输出结果到result.csv /ntable(pre,class=datayuce$x) /结果整理/ 36支持向量机支持向量机37WEKA（Waikato Environment for Knowle
15、dge Analysis） WEKA作为一个公开的数据挖掘工作平台，用于非商业目的的研究行为，集合了大量能承担数据挖掘任务的机器学习算法，包括对数据进行预处理，分类、回归、聚类、关联规则以及在新的交互式界面上的可视化。38uSTATASTATA该软件是美国该软件是美国Computer Resource CenterComputer Resource Center研研制的统计软件，目前的制的统计软件，目前的1212、1313版本就可以实现数据版本就可以实现数据挖掘。挖掘。uSAS for windowsSAS for windows：国际权威的统计软件，有专门：国际权威的统计软件，有专门的数据挖掘模块的数据挖掘模块。 uSPSS for Windows SPSS for Windows ：该软件是一个统计专用软件：该软件是一个统计专用软件，界面很友好。在，界面很友好。在19.019.0之前的版本需要加专门的之前的版本需要加专门的ClementineClementine模块；模块；19.019.0之后版本因有之后版本因有modelermodeler，可，可直接做。直接做。 39 基于大数据进行数据挖掘，采用大型服务器可以提高运行速度。 4041谢谢大家！谢谢大家！

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：医学大数据分析策略与数据挖掘课件.ppt
链接地址：https://www.163wenku.com/p-2192614.html

三亚风情

内容提供者

实名认证

联系作者