医学大数据分析策略与数据挖掘课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学大数据分析策略与数据挖掘课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 数据 分析 策略 挖掘 课件
- 资源描述:
-
1、郭秀花郭秀花-医学大数据分医学大数据分析策略与数据挖掘析策略与数据挖掘2提纲中心概况中心概况医学大数据及其分析策略1中心概况中心概况2数据挖掘软件及其实现方法3数据挖掘方法简介及其应用3医学大数据及其分析策略4大数据(Big Data) 数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息。5模拟式存量模拟式存量数字式存量数字式存量2000年以前大部分数据是analog data (模拟式数据) 以书、报纸、录像带等存储。特点:数据量较小。数据量较小。2000年以后digital data (数字式数据)大大增加 以CD、DVD、硬盘等存储。特点:数据量
2、巨大。数据量巨大。20002000年年Source: Researchers at the University of Southern California took four years - 1986, 1993, 2000 and 2007 - and extrapolated numbers from roughly 1,100 sources of information. Credit: Todd Lindeman and Brian Vastag/ The Washington Post大数据时代的来临大数据时代的来临6医学大数据的应用意义生物标志物识别生物标志物识别利用大数据识
3、别有关疾病发生、预后或治疗效果的生物标志物组学研究基因组学,表观组学,蛋白组学,代谢组学,糖基组学,等环境因素,个体行为与各组学关联7公共卫生监测:传染病监测、慢性非传染性疾病及相关危险因素监测、健康相关监测群体性预防。医学大数据的应用意义8健康管理:通过可穿戴设备对个体体征数据的实时、连续监测提供个体化疾病预防和治疗方案医疗协同和临床决策支持:通过建立专用数据库,调用患者的基因数据、病历信息等大量医学参考数据,辅助疾病的诊断与治疗,实现个体化诊治原则医学大数据的应用意义9可视化信息:可视化信息: 数据与信息图像、多媒体信息可视化,更清晰有效地传达与沟通大数据包含的生物医学信息。医学大数据的应
4、用意义10在生物医学研究领域,大数据:环境气象学数据医学影像数据基因、蛋白等组学数据大型临床资料复杂的生物和环境因素研究生物医学大数据的只要特点:高维11过 去假设驱动,收集数据,分析寻找答案数据大多是结构化的,可以分析现 在数据驱动,挖掘寻找问题数据多是非结构化的,难以分析。科学问题处理方式12条件 正态性正态性 线性、齐性线性、齐性 独立性独立性 足够大的样本量足够大的样本量 变量的变量的2020倍倍 . .方法 多元线性回归分析多元线性回归分析 LogisticLogistic回归分析回归分析 CoxCox回归分析回归分析 聚类分析聚类分析 判别分析判别分析 主成分分析主成分分析 因子分
5、析因子分析 广义线性模型广义线性模型 . . 传统的多元统计方法难以处理和分析医学大数据 高维、非线性、非高斯等数据,采用数据挖掘方法,可以提供更高的预测精度。常用的医学多元统计学应用受到制约13数据挖掘方法简介及其应用14 数据挖掘:数据挖掘:是在从大量的数据中提取隐含的、是在从大量的数据中提取隐含的、事先未知的,但又是潜在有用的信息和知识的过程。事先未知的,但又是潜在有用的信息和知识的过程。14大数据源定义研究问题模型应用建立模型模型评估数据准备提取数据15数据挖掘方法概述数据挖掘方法概述数据挖掘属性筛选属性筛选关联分析关联分析分类预测分类预测回归预测回归预测聚类分析聚类分析随机森林神经网
6、络分类决策树分布估计聚类期望最大化EMK均值聚类层次聚类支持向量机回归回归组合模型广义线性回归神经网络回归LASSO分类回归树支持向量机高维数据降维属性关联分析购物篮分析朴素贝叶斯16 肺结节良恶性的判定是肺结节良恶性的判定是CTCT图像诊断肺癌中图像诊断肺癌中的一个难点和关键点。在实际的临床中,肺癌的一个难点和关键点。在实际的临床中,肺癌被确诊时被确诊时80%80%以上已属中晚期。以上已属中晚期。数据挖掘方法应用实例数据挖掘方法应用实例17矢状位冠状位轴状位矢状位图像库冠状位图像库轴状位图像库三正交位成像1801基本信息 年龄、性别等轴位纹理冠状位纹理矢状位纹理02 既往史肿瘤病史粉尘接触史
7、遗传病史吸烟史等 淋巴结是否肿大 边缘是否光滑 是否分叶 结节位置 有无空泡征等数据集合03影像学检查CT图像纹理04高维大数据库(变量约1000,样本336例)19 数据数据挖掘主要分类预测方法挖掘主要分类预测方法基于肺结节纹理基于肺结节纹理鉴别诊断肺癌鉴别诊断肺癌1920各纹理产生30,40,50,60个子代(即纹理分别为420,560,700,840个)。每个纹理子代分布为正态分布,均值和标准差与轴位CT图像均值相近;设定每个纹理内部子代之间的相关系数为r=0.1,0.2,0.3,0.4;分别产生2组数据,设定两组各个变量均值之间的差值为d(0.01-0.1)。 Monte Carlo模
展开阅读全文