医学科研数据挖掘方法-挖掘技术-课件3.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《医学科研数据挖掘方法-挖掘技术-课件3.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 医学 科研 数据 挖掘 方法 技术 课件
- 资源描述:
-
1、数据挖掘技术(3)一文章错误案例二统计分析方法回顾三如何正确选择统计分析方法四统计分析方法应用案例一文章错误案例案例一案例一原文题目:美喘清和博利康尼治疗支气管哮喘各40例临床疗效与副作用比较,作者选择80例哮喘病人随机分为美喘清组与博利康尼组各40例,记录各组病人发生疗效的时间(见下表)。所得结果用卡方检验进行处理,认为美喘清较博利康尼发生疗效的时间早,且差异具有统计学意义(P0.05)。点评:根据研究目的,每个哮喘患者都能提供一个药物发生疗效的时间,因而此资料从本质土讲应为定量资料,表中结果只是为了表达的方便列出不同时点上的频数分布,并不代表此资料的结果变量就为定性资料。原作者采用卡方检验
2、分析定量资料原作者采用卡方检验分析定量资料,所能回答的问题与原作者的分析目的不一致。此时得出的结论只能是美喘清组和博利康尼组在不同起效时间的构成上存在的差别是否具有统计学意义,并不能得出两组起效时间之间的差别具有统计学意义。案例二案例二原文题目:地氟醚对老年病人血液动力学的影响,为研究地氟醚对老年病人血液动力学的影响,选择腹部手术老年病人(年龄60一74岁)30例,所有病人术前肝肾功能检查均正常。在吸入地氟醚前,监测心输出量(CO)、峰流速(PV)、心率(HR)、校正的血流时间(FTC)、中心静脉压(CVP)、心脏指数(CI)、平均动脉压(MAP)、外周血管阻力(SYR)作为基础值,然后分别调
3、整地氟醚浓度至0.5MAC、1.0 MAC、1.5MAC、2.0MAC,同时测定以上各参数。结果见表。统计学处理:采用T检验来测定差异显著性,P0.05为有显著性差异。点评:同一个病人重复测量了若干血液动力学指标,地氟醚浓度是与“重复测量有关的因素,因而此资料属于具有一个重复测量的单因素设计资料,作者采用采用T T检验检验进行两两比较,因T检验仅适合分析单因素设计且因素的水个数最多为2的定量资料,因此不适合分析此类资料。根据数据可采用重复测重复测量设计资料的方差分析量设计资料的方差分析。统计学四型错误统计学四型错误型错误:也称假阳性错误。即当原假设H0客观上成立,但根据假设检验的规则,将有大小
4、的概率错误地拒绝H0,同时错误地接受备择假设H1。型错误:也称假阴性错误。即当H0客观上不成立,但根据假设检验的规则,将有大小的概率错误地拒绝H1,同时错误地接受H0。型错误:即最终回答的是1个错误的问题。此错误主要是由于试验设计不周密不完善所致,如在试验设计中未将重要的试验因素包括在内。型错误:即对1个假设进行了多项正确的检验,但在对因果关系的分析时作出了错误的比较和解释,这些比较并非是由被使用的模型所定义的。此错误主要出现在结果的解释阶段。二统计分析方法回顾I.无假设的数据挖掘方法无假设的数据挖掘方法Q QQ QQ QQ QI II I1 12 23 34 45 56 6factor 1f
5、actor 2factor n神经网络神经网络聚类分析聚类分析OpenAccntAdd NewProductDecreaseUsage?Time时间序列分析时间序列分析Debt$40K决策树决策树关联分析关联分析H1H2H支持向量机支持向量机决策树的原理 支路 从根节点(决策节点)到叶节点(结局节点)为一条支路 从一个决策节点放射出来的支路必须互斥且包含一切可能的情况,即每一方案各种状态发生的概率之和为1决策节点机会节点结局节点无强制措施铅中毒诊断有强制措施无中毒中毒P=0.73P=0.27低中高P=0.46P=0.43P=0.11075150350中毒无中毒P=0.38P=0.6218低中高
6、P=0.50P=0.46P=0.0430514679决策树的特点 优点 直观,易于理解及解释 对资料分布无特殊要求 缺点 处理大样本多变量时效率较低 分类性能较神经网络与SVM稍差 用法:分类预测,回归预测,卫生决策支持向量机原理 H是分类面,H1和H2是平行于H,且分离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔 离分类面H最近的样本点,因其构成了H1,H2平面,成为H1、H2的支持向量 从数学上可以证明分类面的几何间隔越大,分类误差越小 SVM:最大化几何间隔,寻找最优分类面H1H2H几何间隔支持向量机(SVM)本质上是一种分类判别函数SVM的特点 优点 对样本量需求小
7、 高维识别:对大样本量的数据能降低部分运算复杂性 很好的“鲁棒性”(数据容错能力)能处理非线性可分样本 得到全局最优解 缺点 对变量数很多的数据计算复杂度很大 解决多分类问题效果不好 作为分类器,难以解释各因素的影响大小 用途 分类、回归、异常值检测人工神经网络输入层中间层(隐含层)输出层 神经网络可以分为三个部分输入层、中间层、输出层 中间层可以为单层,也可以为多层 一般建模时,输入层的神经元个数为影响因素个数,输出层为结局变量个数,中间层没有固定的个数,需要经验和实际情况确定 如图所示的人工神经网络结构为4-6-3-1,神经网络的结构越复杂越能拟合复杂的模型神经网络的特点 优点 对数据分布
8、要求低,不需要对数据分布进行检验 具有很强的数据容错能力(鲁棒性)能拟合因素间复杂的非线性关系 缺点 黑箱子模型,难以写出推理过程及模型公式 其预测精度受训练集的影响 易陷入局部最优解 用途 预测、模式识别聚类概念 聚类就是将数据对象组成不同的类,使得不同类之间的相似性尽量小,而同类对象之间的相似性尽量大 探索性统计分析方法 在不知道应分多少类合适的情况下,试图借助某种数理方法用已收集的资料找出研究对象的适当分类常用聚类算法的特点常用聚类算法常用聚类算法优点优点缺点缺点层次聚类适用于任意形状和任意属性的数据集灵活控制不同层次的聚类粒度强聚类能力算法执行时间长不能回溯处理,一旦合并不能重新分配划
展开阅读全文