决策树模型QUEST--谢邦昌教授.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《决策树模型QUEST--谢邦昌教授.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 模型 QUEST 谢邦昌 教授 课件
- 资源描述:
-
1、统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组决策树模型决策树模型 -QUEST 报告人:李福娟报告人:李福娟指导教师:谢邦昌指导教师:谢邦昌时间:时间:2007年年11月月20日日统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型的决策树模型 决策树(Decision Tree)模型,也称规则推理模型 通过对训练样本的学习,建立分类规则 依据分类规则,实现对新样本的分类 属于有指导(监督)式的学习方法,有两类变量: 目标变量(输出变量) 属性变量(输入变量) 决策树模型与一般统计分类模型的主要区别
2、 决策树的分类是基于逻辑的,一般统计分类模型是基于非逻辑的 基于逻辑是指通过对属性变量值的布尔比较来实现分类判断统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型的决策树模型 决策树模型的特点优势: 推理过程容易理解,决策推理过程可以表示成IF、THEN的形式 推理过程完全依据属性变量的取值特点 可自动忽略对目标变量没有贡献的属性变量,也为判断属性变量的重要性,减少变量数目提供参考统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine的决策树模型的决策树模型 决策树模型的主要算法:决策树
3、模型的主要算法: C&RT C5.0 CHAID QUEST统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组QUEST算法算法 QUEST:Quick Unbiased Efficient Statistical Tree 它是 Loh和Shih1997年提出的建立决策树的一种二元分类方法。 QUEST算法也主要涉及分支变量和分割值的确定问题,但它将分支变量选择和分割点选择以不同的策略进行处理 它的运算过程比CR更简单有效。统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组要求要求 属性变量(输入变量)分类型变量、数值型变量 目标变
4、量(输出变量)必须是二值分类型变量(如果是多值的转化成二值的),建立二叉树 模型中涉及到的顺序变量必须存储为数值型 该模型中不可以应用权数变量统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组确定分支变量确定分支变量 分别检验各属性变量对目标变量的独立性。 如果属性变量为定类的,则采用卡方检验 如果属性变量为定距,则采用F检验 选择P-值最小且小于显著性水平的属性变量作为当前的最佳分支变量统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组确定分支变量确定分支变量 如果最小的P-值尚未小于显著性水平: 在F检验检验中,意味着在水平下目标
5、变量不同分类下属性变量的均值不存在显著。此时,应利用LeveneF检验其方差。选择方差齐性最不显著的变量可作为当前的分支变量 否则,该树节点无法再分支统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组 当前分支变量是定距的当前分支变量是定距的 如果目标变量有两个以上的分类水平,则应首先将其合并为两个超类(目标变量的预处理) 分别计算目标变量不同分类下当前分支变量的均值 如果各均值没有显著差异,则将权重最大(该组包含的样本个数最多)组所对应的属性变量值作为一组,其余为另一组 如果各均值存在显著差异,则利用2-Means聚类将样本聚成2类(初始类中心为两个极均值),从
6、而使将目标变量值合并成两类(多分类问题转换为二分类问题)确定分割值确定分割值统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组确定分割值确定分割值当前分支变量是定类的当前分支变量是定类的先将定类分支变量转化为定矩变量 将该分支变量转换为哑变量组,依据目标变量,建立若干个判别函数,并取第一个典型判别函数(特征根最大) 计算各样本在第一个判别函数坐标上的值,作为值再依据前述定距分支变量的方法处理 统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用中的应用 市场研究案例 一个有限电视公司做了一项市场调查以
7、了解哪些用户会订阅某种交互式的新闻服务。 选择的变量有:年龄(age)、性别(gender)、受教育程度(educate)、收入水平(inc)、每天看电视时间(tvday)、家庭拥有孩子个数(childs)。(NewsChan.sav )统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用中的应用统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用中的应用可以通过连接并执行输出节点Table查看数据源数据统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业
8、智能应用研究小组Clementine11.0中的应用中的应用 设置变量类型设置变量类型输入变量输出变量统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用中的应用 建立建立QUEST决策树模型(决策树模型(Modeling-QUEST) 建立一个QUEST结点与源数据相连,然后右击对QUEST结点进行编辑统计分析、数据挖掘与商业智能应用研究小组统计分析、数据挖掘与商业智能应用研究小组Clementine11.0中的应用中的应用 QUEST节点的节点的Model选项选项分割数据集 训练样本 检验样本模式Generate model直
展开阅读全文