决策树学习PPT模版(44页)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《决策树学习PPT模版(44页)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 学习 PPT 模版 44 课件
- 资源描述:
-
1、机器学习第3讲 决策树学习内容简介决策树原理决策树算法决策树中的过拟合问题决策树的其他问题属性的其他度量简介简介 决策树也称为判定树。在决策树方法中,首先从实例集中构造决策树,这是一种有指导学习的方法。该方法先根据训练集 数据形成决策树。如果该数不能对所有对象给出正确的分类,那么选择一些例外加入到训练集数据中,重复该过程一直到形成正确的决策集。决策树代表着决策集的树性结构。最终结果是一棵树,其叶结点是类名,中间结点是带有分枝的属性,该分枝对应属性的某一可能值。 决策树学习是应用最广的归纳推理算法之一。它是一种逼近离散值函数的方法,对噪声数据有很好的健壮性且能够学习析取表达式。学习得到的决策树能
2、够被再次表示为多个if-then的规则,提高可读性。这种学习算法是最流行的归纳推理算法之一,被成功的应用到从医学医疗诊断到学习评估贷款申请的信用风险的广阔领域。决策树原理决策树原理 决策树方法首先对数据进行处理,利用归纳算法生成可读的规则和决策树,然后使用决策对新数据进行分析。 归纳学习归纳学习 决策树技术发现数据模式和规则的核心是归纳算法。归纳算法是从特殊到一般的过程。归纳推理从若干个事实中表征出的特征、特性或属性中,通过比较、总结、概括而得出一个规律性的结论。归纳推理视图从对象的一部分或整体的特定观察中得到一个完备且正确的描述,即从特殊事实得出普遍规律性的结论。归纳对于认识的发展完善具有重
3、要的意义。 归纳学习的过程就是寻找一般化描述的过程。这种一般化描述能够解释给定的输入数据,并可以用来预测新的数据。归纳学习存在一个基本的假定:任一假设如果能够在足够大的训练样本集中很好的逼近目标函数,则他也能在未见样本中很好地逼近目标函数。这个假定是归纳学习的前提条件。 决策树的表示决策树的表示 决策树的基本组成部分:决策结点、分支和子叶。决策树最上面的结点称为跟结点,是整个决策树的开始。每个分支是一个新的决策结点,或者是树的叶子。每个决策结点代表一个问题或决策,通常对应于待分类对象的属性。每一个叶结点代表一种可能的分类结果。在沿着决策树从上到下遍历的过程中,在每个结点都会遇到一个测试,对每个
4、节点上问题的不同测试输出导致不同的分支,最后会到达一个叶子结点。这个过程就是利用决策树进行分类的过程,利用若干个变量来判断所属的类别。决策树表示法决策树n通过把实例从根节点排列到某个叶子节点来分类实例;n叶子节点即为实例所属的分类;n树上每个节点说明了对实例的某个属性的测试;n节点的每个后继分支对应于该属性的一个可能值。图3-1 Play tennis决策树此图为典型学习到的决策树,这棵树根据天气情况分类“星期六上午是否适合打网球”,上面的实例沿着这棵决策树的最左分支向下排列,因而被判定为反例(也就是这棵树预测这个实例Play tennis=no)。图3-1对应于一下表达式决策树代表实例属性值
5、约束的合取的析取式从根结点到叶结点的每一条路径对应一组属性的合取,树本身对应这些合取的析取。决策树学习的适用问题适用问题的特征n实例由“属性-值”对表示n目标函数具有离散的输出值n可能需要析取的描述n训练数据可以包含错误n训练数据可以包含缺少属性值的实例分类问题n核心任务是把样例分类到各可能的离散值对应的类别决策树算法大多数决策树学习算法是一种核心算法的变体采用自顶向下的贪婪搜索遍历可能的决策树空间n贪心算法算法代表: ID3基本的决策树学习算法(2)ID3的思想n自顶向下构造决策树n从“哪一个属性将在树的根节点被测试”开始n使用统计测试来确定每一个实例属性单独分类训练样例的能力ID3的过程n
6、分类能力最好的属性被选作树的根节点n根节点的每个可能值产生一个分支n训练样例排列到适当的分支n重复上面的过程熵:物理学概念观上:力学定律体系的熵变等于可逆过程吸收或耗散的:量除以它的绝对温度(克劳修斯,1865)观上:熵是大量观观子的的位和和度的分分概概的函数,是描述系统中大量观观子的无序性的观参数(波尔兹曼,1872)结论:熵是描述事物无序性的参数,熵越大则无序性越强,在信息领域定义为“熵越大,不确定性越大”(香浓,1948年)最佳分类属性信息增益n用来衡量给定的属性区分训练样例的能力nID3算法在增长树的每一步使用信息增益从候选属性中选择属性用熵度量样例的均一性n熵刻画了任意样例集的纯度n
7、给定包含关于某个目标概念的正反样例的样例集S,那么S相对这个分尔型分类的熵为Entropy(S)=n信息论中对熵的一种解释,熵确定了要编码集合S中任意成员的分类所需要的最少二进制的数n更一般地,如果目标属性具有c个不同的值,那么S相对于c个状态的分类的熵定义为 Entropy(S)=ciiipp12log假设S是关于某分尔概念的有14个样例的集合,它包括9个正例和5个反例,(我们采用记号9+,5-来概括这样的数据样例)。那么S相对于这个分尔分类的熵为:注:如果S的所有成员属于一类那么S的熵为0,例:如果所有成员都是正的(p+=1),那么p-=0,于是Entropy(S)=0,集合中正反样例相等
8、时,熵为1,正反样例不等时,熵介于0,1之间右图显示了分尔型的分类的熵函数随着p+从01的变化曲线。最佳分类属性(2)用信息增益度量期望的熵降低n属性的信息增益,由于使用这个属性分割样例而导致的期望熵降低nGain(S,A)是在知道属性A的值后可以节省的二进制的数n例子)()(|)(),(AValuesvvvSEntropySSSEntropyASGainS:共14个例子,其中9正、5负使用属性Wind(取值为Weak或Strong)对S进行分类:Sweak(6正、2负)、Sstrong(3正、3负)谁是最佳属性?ID3算法一个完整的例子决策树学习中的假设空间搜索ID3的优势和不足n假设空间包
9、含所有的决策树,它是关于现有属性的有限离散值函数的一个完整空间n维护单一的当前假设(不同于变型空间候选消除算法)n不进行回溯n每一步使用所有的训练样例,不同于基于单独的训练样例递增作出决定,容错性增强决策树学习的归纳偏位ID3的搜索策略n优先选择较短的树n选择那些信息增益高的属性离根节点较近的树n很难准确刻画ID3的归纳偏位近似的ID3的归纳偏位n较短的树比较长的树优先n局部最优实现全局最优n一个精确具有这个归纳偏位的算法,BFS-ID3更贴切近似的归纳偏位n较短的树比较长的树优先,信息增益高的属性更靠近根节点的树优先限定偏位和优选偏位ID3和候选消除算法的比较nID3的搜索范围是一个完整的假
10、设空间,但不彻底地搜索这个空间n候选消除算法的搜索范围是不完整的假设空间,但彻底地搜索这个空间nID3的归纳偏位完全是搜索策略排序假设的结果,来自搜索策略n候选消除算法完全是假设表示的表达能力的结果,来自对搜索空间的定义限定偏位和优选偏位优选偏位nID3的归纳偏位是对某种假设胜过其他假设的一种优选,对最终可列举的假设没有硬性限制限定偏位n候选消除算法的偏位是对待考虑假设的一种限定通常优选偏位比限定偏位更符合归纳学习的需要为什么短的假设优先思考:ID3算法中优先选择较短决策树的归纳偏位,是不 是从训练数据中泛化的一个可靠基础?ID3的归纳偏位的哲学基础n奥坎姆剃刀w优先选择拟合数据的最简单的假设
展开阅读全文