分类与回归分析课件.ppt

上传人（卖家）：晟晟文业

文档编号：5200068

上传时间：2023-02-16

格式：PPT

页数：30

大小：571.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

22 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《分类与回归分析课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 分类回归分析课件

资源描述：: 1、浙江大学医学院流行病与卫生统计学教研室沈毅分类树与回归树分析决策树分类浙江大学医学院流行病与卫生统计学教研室沈毅饮酒与产妇年龄发生早产的风险饮酒与产妇年龄发生早产的风险：低风险高风险浙江大学医学院流行病与卫生统计学教研室沈毅决策树的基本概念：决策树的基本概念：分类分类：决策树分为分类树分类树和回归树回归树两种，分类树对离散变量做决策树，回归树对连续变量做决策树。一般的数据挖掘工具，允许选择分裂条件和修剪规则，以及控制参数（最小节点的大小，最大树的深度等等）来限制决策树的过拟合（overfiting)。过程：过程：通过递归分割的过程构建决策树通过递归分割的过程构建决策树。寻找初始分裂：整
2、个训练集作为产生决策树的集合，训练集每个记录必须是已经分好类的。决定哪个属性（Field）域作为目前最好的分类指标。一般的做法是穷尽所有的属性域，对每个属性域分裂的好坏做出量化，计算出最好的一个分裂。量化的标准是计算每个分裂的多样性（diversity）指标GINI指标。生成一棵完整的树：重复第一步，直至每个叶节点内的记录都属于同一类。数据的修剪：不同的算法有不同修剪规则（修剪成大小合适的树）。浙江大学医学院流行病与卫生统计学教研室沈毅 CHAID（Chi-squared Automatic Interaction Detector），由Kass于1980年提出，其核心思想是：根据给定的结果
3、变量（即目标变量）和经过筛选的特征指标（即预测变量）对样本进行最优分割，按照卡方检验的显著性进行多元列联表的自动判断分组。其分类过程是：首先选定分类的目标变量，然后用分类指标与结果变量进行交叉分类，产生一系列二维分类表，分别计算二维分类表的2值，比较P值的大小，以P值最小的二维表作为最佳初始分类表，在最佳二维分类的基础上继续使用分类指标对目标变量进行分类，重复上述过程直到P大于设定的有统计意义的值时则分类停止。目标变量可以为nominal、ordinal、continuous三种类型，每个拆分点可以有多个子结点。一、方法选择一、方法选择浙江大学医学院流行病与卫生统计学教研室沈毅 Exhaus
4、tive CHAID，由Biggs于1991年提出，通过连续合并相近的对子反复检测来选择最佳拆分点，相对于CHAID法需要花费较长的时间。目标变量可以为nominal、ordinal、continuous三种类型，其每个拆分点可以有多个子结点。浙江大学医学院流行病与卫生统计学教研室沈毅 C&RT（Classification and Regression Trees），由Breiman等于1984年首次提出，CART在计算过程中充分利用二叉树的结构，即根结点包含所有样本，对预测变量应用多种统计方法反复运算，将根结点分割为两个子结点，这个过程又在子结点上重复进行，成为一个回归过程，直至不可再分
5、成为子结点为止，最后产生同质的与目标变量有关的子集。其目标是以尽量小的树将目标变量分入同质的组中。目标变量也可以为nominal、ordinal、continuous三种类型，其最终生成一个二叉树。浙江大学医学院流行病与卫生统计学教研室沈毅 QUEST（Quick,Unbiased,Efficient Statistical Tree），由Loh和Shih于1997年提出，是一种快速且可避免由多分类预测变量引起的偏倚的算法。目标变量仅限于nominal型，且其最后生成的是二叉树。浙江大学医学院流行病与卫生统计学教研室沈毅二、模型定义二、模型定义在这一步可以选择并定义目标变量和预测变量，如
6、果选择了QUEST法，则目标变量只能为nominal型。要改变变量的类型，可以对变量类型进行重定义（define variables）。（注意：目标变量类型的不同，树枝修剪的规则也不同）浙江大学医学院流行病与卫生统计学教研室沈毅三、模型验证三、模型验证设定合适的验证模型的方式：Do not validate the tree：不另外建立数据集对模型进行验证，模型的建立和检验都基于整个数据集。Partition my data into subsamples：整个数据文件成两部分，即训练样本（training sample）和检验样本（testing sample），如果通过训练样本生成
7、的模型能够较好地拟合检验样本，则表明生成的决策树对类似于当前数据集结构的更大的数据集具有较好的通用性。在生成满意的训练样本的决策树后，对样本进行检验，决策树即变为应用检验样本后的结果，接着通过考察估计误差、gain系数，可以决定生成的决策树的通用程度。当样本量较大时可以选择该法。Cross-validation：该法将整个数据集拆分成数个相等大小的部分，分别以每一部分作为检验样本，其余部分作为训练样本，生成数个决策树，并计算各个决策树的危险估计（risk estimates）的平均值。该法适用于样本量较小的情形。浙江大学医学院流行病与卫生统计学教研室沈毅四、修剪树枝四、修剪树枝
8、在这一步中可以通过设置树状图的最大层数（Maximum Tree Depth）、根结点（Parent Node）及子结点（Child Node）的最小例数（Minimum Number of Cases）来确定生成树的终止规则（Stoping Rules）；终止规则会随着所选定算法的不同而不同；当目标变量是nominal型时，还可以估计对错误分类造成的费用（costs）；总之，这一部分比较复杂也较难掌握。浙江大学医学院流行病与卫生统计学教研室沈毅五、实例分析五、实例分析分类决策树（回归树）在病例组合中的应用根据医疗资源消耗相近的原则，选取每个病例的住院总费用为分组轴心（即目标变量），以年
9、龄、婚否、性别、手术、护理、抢救、伴随病、费用类别、入院情况、转归情况为分类结点（即预测变量），并对目标变量和预测变量进行重新编码。变量量化方法或单位目标变量住院总费用（元）预测变量年龄 1：020岁 2：2140岁 3：4160岁 4：61岁婚否 1：未婚 2：已婚 3：离婚 4：丧偶性别 1：男 2：女手术 0：无 1：有护理 0：无 1：有抢救 0：无 1：有伴随病 0：无 1：有费用类别 1：自费 2：公费 3：其它入院情况 1：一般 2：急 3：危转归情况 1：有效 2：死亡 3：其他浙江大学医学院流行病与卫生统计学教研室沈毅由于住院总费用呈正偏态分
10、布，对其作对数变换，变换后的数据经正态性检验符合要求，故将其对数值作为目标变量。算法选用CHAID法，且抽取10的样本做回代检验。下图为生成的树形图。图图1：住院费用的回归树：住院费用的回归树浙江大学医学院流行病与卫生统计学教研室沈毅从图可以看出，树的第一个结点是年龄，说明年龄与肠道传染病的住院总费用相关性最显著。其中，年龄在40岁以上者的总费用最高。在年龄为40岁以上者中，与住院总费用相关性最显著的为病人的费用类别，费用类别为非自费（公费及其它）者的总费用相对较高。因此，从图可以得出结论：年龄在40岁以上，并且费用类别为非自费的病人住院总费用最高。疾病名 ICD-9 分类结点1（年龄）分类
11、结点2（费用类别）结点3（）新组合的编码肠道传染病 001-009 020岁 001 2140岁 002 41岁自费 003 公费及其它 004 从上表可以看出，经过CHAID分析，最后将肠道传染病重新组合为4个组，分别为：年龄为020岁的病人、年龄为2040岁的病人、年龄为四十岁以上且费用类别为自费的病人、年龄为40岁以上且费用类别为非自费的病人浙江大学医学院流行病与卫生统计学教研室沈毅回代检验的树形图回代检验的结果与训练样本的结果基本一致，说明拟合较好，因此该决策树有较好的通用性。图2：回代检验的回归树浙江大学医学院流行病与卫生统计学教研室沈毅训练样本和检验样本的误差率估计
12、值 R isk统计量样本平均估计误差平均估计误差的标准误训练样本 1.1394 0.0990 检验样本 0.9677 0.1528 训练样本和检验样本的误差率估计值均较小，说明分类结果较为合理。通过以上分析我们可以得出结论：肠道传染病的住院总费用经过CHAID分析后，得到两个分类点，分别为年龄和费用类别，从而得到四个病例组合，其中年龄为40岁以上且费用类别为非自费的病人住院总费用最高，并且回代检验和Risk统计量的结果表明分析较为合理。浙江大学医学院流行病与卫生统计学教研室沈毅（1）熟悉欲分析资料的变量特征，合理地选择目标变量及预测变量。
13、如上例中目标变量除住院总费用外，还可选用平均住院天数；（2）必须准确编码预测变量，并对其变量类型进行正确的设定；目标变量是连续变量时，须符合正态性的要求；（3）选用的算法不同会直接影响到模型的建立，因此，一定要根据实际情况，考虑目标变量及预测变量的类型，对树的算法作出合理的选择。对于可以同时选用几种算法的情形，可以对每种算法的结果进行分析，最后找出最佳的模型。（4）对于大样本的资料，可以选用模型验证的第二种方式进行回代检验，当样本量较小时，则应该选用第三种方式（Cross-validation）进行模型检验。（5）可以使用传统的统计模型与Tree模型的分析结果作一对比分析。六、注意事项六、注意
14、事项浙江大学医学院流行病与卫生统计学教研室沈毅七、决策树的优缺点七、决策树的优缺点优点：1、不受缺省值的影响，可充分利用缺省值。2、对异常值不敏感。3、树结构、判断规则呈现结果4、目标变量可以是多种类型的变量。5、变量间存在非线性、交互效应等同样适用。缺点：不稳定（不同的随机种子、不同的结点划分、不同的算法可能获得十分不同的结果）。浙江大学医学院流行病与卫生统计学教研室沈毅八、八、Logistic模型和多元线性回归模型与决策树比较模型和多元线性回归模型与决策树比较比较内容Logistic分类树目标变量分类变量分量变量解释变量分类变量（最佳）分类或连续变量分布二项或多项分布二项或多项分布参
15、数估计能不能变量间的独立性有要求(无共线性)无要求Y与X的关系呈对称的S型关系无要求异常值的影响较大较小预测概率分类值分类人为分类自动分类（一）Logistic回归与分类树比较浙江大学医学院流行病与卫生统计学教研室沈毅实例分析比较实例分析比较浙江大学医学院流行病与卫生统计学教研室沈毅Logistic回归分析：Y=1 二分类变量 X 连续变量0)()()(221102211022110111xxxxxxeeep浙江大学医学院流行病与卫生统计学教研室沈毅22110)(log)1ln(xxpitppLogit(p)与饮酒量呈线性关系浙江大学医学院流行病与卫生统计学教研室沈毅Logit(p)与
16、年龄呈线性关系浙江大学医学院流行病与卫生统计学教研室沈毅Logit(p)与饮酒和年龄的关系饮酒与年龄的关系浙江大学医学院流行病与卫生统计学教研室沈毅Logistic回归分析结果：V Va ar ri ia ab bl le es s i in n t th he e E Eq qu ua at ti io on n1.677.5997.8481.0055.3521.65517.304-4.0391.23710.6621.001.0183.7911.5086.3231.01244.2992.307850.488.328.1326.1711.0131.3881.0721.797-18.077
17、6.8157.0361.008.000drinkConstantStep1adrinkageConstantStep2bBS.E.WalddfSig.Exp(B)LowerUpper95.0%C.I.for EXP(B)Variable(s)entered on step 1:drink.a.Variable(s)entered on step 2:age.b.如何解释饮酒和年龄的OR？)(01xeppoddseeeORx00)(浙江大学医学院流行病与卫生统计学教研室沈毅C Cl la as ss si if fi ic ca at ti io on n T Ta ab bl le ea a
18、27584.47330.071.431196.93770.090.5Observed非早产早产早产Overall Percentage非早产早产早产Overall PercentageStep 1Step 2非早产早产早产PercentageCorrectPredictedThe cut value is.500a.Logistic回归预测（分类）结果：浙江大学医学院流行病与卫生统计学教研室沈毅SPSS软件决策树分析：软件决策树分析：浙江大学医学院流行病与卫生统计学教研室沈毅M Mo od de el l S Su um mm ma ar ry yCHAID早产饮酒量,年龄NONE3205
19、饮酒量,年龄532Growing MethodDependent VariableIndependent VariablesValidationMaximum Tree DepthMinimum Cases inParent NodeMinimum Cases inChild NodeSpecificationsIndependent VariablesIncludedNumber of NodesNumber of TerminalNodesDepthResults分类树分析结果：浙江大学医学院流行病与卫生统计学教研室沈毅1.饮酒量（x1）与早产的关系最大，且在饮酒量1.3（两/天）的组中
20、，年龄（x2）是影响其早产的重要因素。2.饮酒量x11.3（两/天）且年龄x2 26岁的孕妇具有最高的早产风险。浙江大学医学院流行病与卫生统计学教研室沈毅比较内容多元线性回归回归树目标变量连续变量连续变量解释变量连续或分类分类或连续变量参数估计能不能分布正态分布正态分布变量间的独立性有要求(无共线性)无要求Y与X的关系呈线性关系无要求等方差有要求无要求异常值的影响较大较小预测个体分类值分类无自动分类（二）多元线性回归与回归树比较浙江大学医学院流行病与卫生统计学教研室沈毅讨论：1、决策树在数据分析中的主要作用是什么？2、如何选择模型？3、能否用决策树分析来替代Logistic回归分析，为什么？4、多元线性回归与回归树的主要区别？5、产妇饮酒、产妇年龄与早产关系的分析可否用MANOVA？MANOVA分析与分类树的区别？6、决策树分析存在问题吗？主要问题是什么？

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：分类与回归分析课件.ppt
链接地址：https://www.163wenku.com/p-5200068.html

晟晟文业

内容提供者

实名认证

联系作者