书签 分享 收藏 举报 版权申诉 / 88
上传文档赚钱

类型医学信息学论文SPSS分类树应用课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:3808205
  • 上传时间:2022-10-15
  • 格式:PPT
  • 页数:88
  • 大小:1.92MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《医学信息学论文SPSS分类树应用课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    医学 信息学 论文 SPSS 分类 应用 课件
    资源描述:

    1、SPSS Classification Trees 分类树的应用分类树的应用深圳市医学信息中心深圳市医学信息中心罗春花罗春花内容内容基本概念基本概念快速入门快速入门知识拓展知识拓展一、基本概念一、基本概念什么是分类树?什么是分类树?对资料的要求对资料的要求用途用途如何确定变量的重要性、相互关系、交如何确定变量的重要性、相互关系、交互作用互作用分类树的优缺点分类树的优缺点分类树的运算法则分类树的运算法则1.什么是分类树?什么是分类树?分类树产生一个基于树状的分类模型;分类树产生一个基于树状的分类模型;它将研究对象分组,可以根据自变量预它将研究对象分组,可以根据自变量预测因变量;是探索性和证实性分

    2、类分析测因变量;是探索性和证实性分类分析的有效工具。的有效工具。2.对资料的要求:任何类型对资料的要求:任何类型不要求解释变量不要求解释变量Xi 和结果变量和结果变量Y具有某种特具有某种特定的分布。定的分布。允许不同数据类型的解释变量一起进入模允许不同数据类型的解释变量一起进入模型,可以使用不同数据类型的结果变量。型,可以使用不同数据类型的结果变量。传统方法对资料的类型和分布有相对严格传统方法对资料的类型和分布有相对严格的规定(如多元线性回归);不易处理共的规定(如多元线性回归);不易处理共线性问题和多水平变量之间复杂的交互作线性问题和多水平变量之间复杂的交互作用(如用(如logistic 回

    3、归)。回归)。根据解释变量对结果变量进行分类和根据解释变量对结果变量进行分类和预测。预测。识别影响因素间的交互作用识别影响因素间的交互作用3.用途用途1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素儿童肥胖症的儿童肥胖症的高危人群和低危人群高危人群和低危人群4.变量的重要性及变量的重要性及变量间的相互关系如何确定?变量间的相互关系如何确定?解释变量的重要性表现为该解释变量解释变量的重要性表现为该解释变量出出现在树干的起始部位,或离起始部位很现在树干的起始部位,或离起始部位很接近接近;另一方面,重要性还表现为同一;另一方面,重要性还表现为同一解释变量解释变量多次在模型中出现多次在模型中出

    4、现。利用解释变量之间上下的关系分析解释利用解释变量之间上下的关系分析解释变量间是否有可能存在交互作用。如果变量间是否有可能存在交互作用。如果某些解释变量在单因素分析时与结果变某些解释变量在单因素分析时与结果变量之间无明显关联,而在模型中的某些量之间无明显关联,而在模型中的某些局部有明显的效应,提示这些解释变量局部有明显的效应,提示这些解释变量之间可能存在交互作用。之间可能存在交互作用。5.分类树的优缺点分类树的优缺点是一种新的多因素分析方法,其结果直是一种新的多因素分析方法,其结果直观、明了、易于解释,能有效处理缺失观、明了、易于解释,能有效处理缺失数据及变量之间的共线性,对资料分布数据及变量

    5、之间的共线性,对资料分布无任何要求。无任何要求。只适合大样本资料。如果结果变量是连只适合大样本资料。如果结果变量是连续性资料,样本含量可以小一些。如果续性资料,样本含量可以小一些。如果结果变量是分类资料,样本含量要大。结果变量是分类资料,样本含量要大。6.运算法则运算法则 CHAID 结果变量:分类资料(最常结果变量:分类资料(最常用)用)、计量或等级资料、计量或等级资料Exhaustive CHAID:结果变量:分类资结果变量:分类资料(最常用)料(最常用)、计量或等级资料、计量或等级资料CRT结果变量:计量资料(最常用)、结果变量:计量资料(最常用)、分类或等级资料分类或等级资料QUEST

    6、 结果变量:仅用于分类资料结果变量:仅用于分类资料二、快速入门二、快速入门 Quick Start1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素银行对客户的信贷风险评估银行对客户的信贷风险评估学生压力的影响因素分析学生压力的影响因素分析(一)结果变量是分类资料(一)结果变量是分类资料 例例1 1352名少年儿童肥胖症危险因素名少年儿童肥胖症危险因素性别:男、女性别:男、女年龄组:年龄组:7-9岁,岁,10-12岁,岁,13-15岁,岁,16岁岁胆固醇:胆固醇:5.18(mmol/L),5.18(mmol/L)甘油三脂:甘油三脂:0.50(mmol/L),0.50(mmol/L)1.数

    7、据文件数据文件2.SPSS过程过程单击单击OK(不必在此定义变量属性)(不必在此定义变量属性)右键单击变量,定义变量类型右键单击变量,定义变量类型定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:Scale定义变量定义变量“性别性别”Nominal定义变量定义变量“年龄组年龄组”Ordinal定义变量定义变量“胆固醇胆固醇”Nominal定义变量定义变量“甘油三脂甘油三脂”Nominal 定义变量定义变量“肥胖症肥胖症”Nominal肥胖症肥胖症Dependent Variable性别、年龄组、胆固醇、甘油三脂

    8、性别、年龄组、胆固醇、甘油三脂 Independent VariableGrowing Method Exhaustive CHAID单击单击OK3.主要结果主要结果例例2 2 银行对客户的信贷风险评估银行对客户的信贷风险评估A bank wants to categorize credit applicants according to whether or not they represent a reasonable credit risk.Based on various factors,including the known credit ratings of past custom

    9、ers,you can build a model to predict if future customers are likely to default on their loans.1.数据文件数据文件2.To Obtain Classification TreesAnalyzeClassify Tree.3.Define Variable Properties定义数据测量类型定义数据测量类型Measure计数资料:计数资料:Nominal等级资料:等级资料:Ordinal计量资料:计量资料:ScaleClassification Tree dialog boxDefine Variab

    10、le Properties可对变量设置变量值标签可对变量设置变量值标签可更改变量类型和设置变量值标签可更改变量类型和设置变量值标签单击单击OK4.分类树分类树主主对话框对话框(1)Selecting CategoriesGrowing Method:CHAID(2)Force the first variable Influence variable 一般不选择这一般不选择这2项项(3)Validation 是否需要交叉核实和是否需要交叉核实和分开分开2样本核实?样本核实?默认:不需要默认:不需要 (4)CriteriaGrowth Limits、CHAID、IntervalsTree Dep

    11、th:AutomaticParent Node:400;Child Node:200CriteriaCHAID,默认拆分及合并的检验水准均定位拆分及合并的检验水准均定位0.05CriteriaIntervals,对连续性变量,默认分为10个区间(5)Output treeTree in table format:非默认,可不选非默认,可不选Output StatisticsOutput Plots5.主要结果主要结果CHAID,Exhaustive CHAIDModel Summary:记录了主要操作:记录了主要操作Model SummaryCHAIDCredit ratingAge,Inco

    12、me level,Number of credit cards,Education,Car loansNONE3400200Income level,Number of credit cards,Age1063Growing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild NodeSpecificationsIndependent VariablesIncludedNumber of NodesNum

    13、ber of TerminalNodesDepthResultsTree Editor改变图形方向改变图形方向增大图形增大图形单击单击“”或右键或右键隐蔽子结隐蔽子结Hide ChildrenTree Table(非默认,可不选)(非默认,可不选)Tree Table102041.4%144458.6%2464100.0%Good45482.1%9917.9%55322.4%Bad0Incomelevel.000662.4572 Medium42256.7%32243.3%74430.2%Bad2Number ofcreditcards.000193.11315 or more5413.8%3

    14、3686.2%39015.8%Good2Number ofcreditcards.000193.1131Less than 58017.6%37582.4%45518.5%Good3Number ofcreditcards.00038.58715 or more103.1%31296.9%32213.1%Good3Number ofcreditcards.00038.5871Less than 521180.8%5019.2%26110.6%Bad4Age.00095.2991 28.079205818990676Node0123456789NPercentBadNPercentGoodNPe

    15、rcentTotalPredictedCategoryParent NodeVariableSig.aChi-SquaredfSplit ValuesPrimary Independent VariableGrowing Method:CHAID Dependent Variable:Credit rating Bonferroni adjusteda.Target Category:Bad子结子结1、8对区分对区分Bad的区分作用大的区分作用大Bad的比例的比例41.4(1020/2464)Index=Response/41.4*100%Gains for Nodes55322.4%4544

    16、4.5%82.1%198.3%26110.6%21120.7%80.8%195.3%48319.6%21120.7%43.7%105.5%45518.5%807.8%17.6%42.5%39015.8%545.3%13.8%33.4%32213.1%101.0%3.1%7.5%Node189657NPercentNodeNPercentGainResponseIndexGrowing Method:CHAID Dependent Variable:Credit rating 246=2464*10%;493=2464*20%;如累计如累计Gain Percent快速接近快速接近100,则分类和

    17、预测效果好则分类和预测效果好Gains for Percentiles 124620219.8%82.1%198.3%149340539.7%82.1%198.3%1;873960459.3%81.8%197.6%8;998674072.6%75.1%181.3%9123284883.1%68.8%166.2%9;6147890889.0%61.4%148.4%6172595193.3%55.1%133.2%6;5197198696.7%50.0%120.9%5;72218101299.3%45.6%110.3%724641020100.0%41.4%100.0%Percentile10203

    18、0405060708090100NodesNNPercentGainResponseIndexGrowing Method:CHAID Dependent Variable:Credit rating 横坐标为调查总例数的百分比,纵坐标为目标分横坐标为调查总例数的百分比,纵坐标为目标分类如类如bad的百分比。的百分比。1009080706050403020100P ercenti l eP ercenti l e100%80%60%40%20%0%G ai nG ai nD ependent Vari abl e:C redi t rat i ngG row i ng M et hod:C H

    19、 AI DTarget C ategory:B adTarget C ategory:B adFor a good model,the index value should start well above 100%,remain on a high plateau as you move along(说明区分度高的(说明区分度高的节点多)节点多),and then trail off sharply toward 100%.For a model that provides no information,the line will hover around 100%for the entir

    20、e chart.从应答率或检出率的角度,说明各节点的作从应答率或检出率的角度,说明各节点的作用。如果多数节点的应答率接近用。如果多数节点的应答率接近41.4(1020/2464,没有建立模型的情况),则说,没有建立模型的情况),则说明模型效果不好。明模型效果不好。模型评价:总的正确率模型评价:总的正确率是是79.5,Bad的正确率的正确率是是65.2。Risk.205.008EstimateStd.ErrorGrowing Method:CHAID Dependent Variable:Credit ratingClassification66535565.2%149129589.7%33.0

    21、%67.0%79.5%ObservedBadGoodOverall PercentageBadGoodPercentCorrectPredictedGrowing Method:CHAID Dependent Variable:Credit rating 小结:小结:Dependent为分类变量的操作为分类变量的操作单击单击OK选择选择CHAID;单击;单击CategoriesBad TargetOutput TreeOutput StatisticsOutput Plots是否需要交叉核实和分开是否需要交叉核实和分开2样本核实?样本核实?默认:不需要默认:不需要Criteria Growth

    22、 Limits默认类别分默认类别分3层;母结层;母结100,子结,子结50;本例样本大,调整为本例样本大,调整为400,200如有过多的如有过多的Missing data:用用CRT or QUEST methods取代取代(二)结果变量是连续资料(二)结果变量是连续资料学生压力的影响因素分析(学生压力的影响因素分析(61例)例)性别:男;女性别:男;女专业:会计系;注册会计师系专业:会计系;注册会计师系专业满意:很满意;满意;一般;不满意专业满意:很满意;满意;一般;不满意学业成绩:很好;好;一般;较差学业成绩:很好;好;一般;较差压力总分:压力总分:0181.数据文件数据文件2.SPSS过

    23、程过程单击单击OK定义变量定义变量“性别性别”、“系系”Nominal定义变量定义变量“专业满意专业满意”、“学业成学业成绩绩”Ordinal Growing Method:CRT;单击单击CriteriaParent Node:20;Child Node:10单击单击OK3.主要结果主要结果Parent NodeChild Node模型构建的主要参数如下模型构建的主要参数如下应变量为分类资料,选用应变量为分类资料,选用Exhaustive CHAID 或或CHAID算法。算法。拆分及合并的检验水准一般设置为拆分及合并的检验水准一般设置为0.05分类树的最大生长深度定为几层(默认分类树的最大生

    24、长深度定为几层(默认为为3层,可最多设定层,可最多设定8层)?层)?设定母结点和子结点中的最少例数分别设定母结点和子结点中的最少例数分别为多少(默认:母结点为多少(默认:母结点100;子结点;子结点50)?)?知识拓展知识拓展对乳腺癌患者死亡的相关因素进行分类树分析对乳腺癌患者死亡的相关因素进行分类树分析主要操作主要操作主要结果主要结果在在Word中重新绘制的图形中重新绘制的图形2病理肿瘤大小(cm)2Node 1死亡率0.9%观察例数326Node 4死亡率19.1%观察例数89Node 5死亡率7.0%观察例数86Node 3死亡率6.0%观察例数439Node 0死亡率6.0%观察总例数

    25、1207Node 2死亡率=4.1%观察例数2671.01.11.41.53.03.0未检测Node 6死亡率6.5%观察例数370Node 7死亡率15.9%观察例数69腋下淋巴结转移个数图1 乳腺癌患者死亡相关因素的分类树结果分类树方法及其结果的文字描述分类树方法及其结果的文字描述方法方法结果结果分类树分类树方法方法的文字描述的文字描述 采用分类树分析乳腺癌患者死亡的相关采用分类树分析乳腺癌患者死亡的相关因素。乳腺癌患者因素。乳腺癌患者1207例,因乳腺癌死亡例,因乳腺癌死亡72例。应变量例。应变量Y:乳腺癌死亡(:乳腺癌死亡(0:生存;:生存;1:死亡);自变量死亡);自变量X:病理肿瘤

    26、大小(:病理肿瘤大小(cm)、)、腋下淋巴结转移个数、雌激素受体状态(阴腋下淋巴结转移个数、雌激素受体状态(阴性,阳性)、年龄(岁)和生存时间(月)。性,阳性)、年龄(岁)和生存时间(月)。用用Exhaustive CHAID法建立模型,用自法建立模型,用自动法选择分类树的深度,母节(动法选择分类树的深度,母节(Parent Node)和子节(和子节(Child Node)的最小例数分别为)的最小例数分别为100和和50。树节拆分及合并的检验水准均为。树节拆分及合并的检验水准均为0.05。分类树的深度有分类树的深度有2层(图层(图1),第),第1层为病理肿层为病理肿瘤大小,第瘤大小,第2层为腋

    27、下淋巴结转移个数。终止节层为腋下淋巴结转移个数。终止节(Terminal Node)用方框表示,非终止节用椭圆)用方框表示,非终止节用椭圆表示。表示。病理肿瘤大小与死亡率关系最密切:在病理肿瘤大小与死亡率关系最密切:在1cm以以内,乳腺癌患者的死亡率最低(内,乳腺癌患者的死亡率最低(0.9),在),在3cm以以上,死亡率最高(上,死亡率最高(19.1)。)。腋下淋巴结转移个数也与死亡率有关联,而且腋下淋巴结转移个数也与死亡率有关联,而且与病理肿瘤大小存在交互作用。病理肿瘤大小在与病理肿瘤大小存在交互作用。病理肿瘤大小在1.5cm3.0cm的患者:腋下淋巴结转移个数在的患者:腋下淋巴结转移个数在2个个及以下,死亡率为及以下,死亡率为6.5;腋下淋巴结转移个数在;腋下淋巴结转移个数在2以上,死亡率为以上,死亡率为15.9。分类树分类树结果结果的文字描述的文字描述Thank you!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:医学信息学论文SPSS分类树应用课件.ppt
    链接地址:https://www.163wenku.com/p-3808205.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库