决策树和决策规则课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《决策树和决策规则课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 决策树 决策 规则 课件
- 资源描述:
-
1、决策树和决策规则决策树和决策规则第第7章章本章目标本章目标 分析解决分类问题的基于逻辑的方法的特性分析解决分类问题的基于逻辑的方法的特性 信息论基础信息论基础 ID3算法算法 了解何时以及怎样用修剪方法降低决策树和复杂度了解何时以及怎样用修剪方法降低决策树和复杂度 总结用决策树和决策规则表示一个分类模型的局限性总结用决策树和决策规则表示一个分类模型的局限性 什么是分类?数据分类(data classfication)是数据挖掘的主要内容之一,主要是通过分析训练数据样本,产生关于类别的精确描述。这种类别通常由分类规则组成,可以用来对未来的数据进行分类和预测。数据分类的两个步骤:第1步:建立一个模
2、型,描述给定的数据类集或概念集(简称训练集)第2步:使用模型对数据进行分类。包括评估模型的分类准确性以及对类标号未知的元组按模型进行分类训练数据分类算法分类规则学习测试数据待分类数据分类规则模型评估新数据分类7.1 信息论基础 信息论是C.E.Shannon四十年代末期,以客观概率信息为研究对象,从通信的信息传输问题中总结和开拓出来的理论。主要研究的问题:信源的描述,信息的定量度量、分析与计算 信道的描述,信道传输的定量度量、分析与计算。信源、信道与通信系统之间的统计匹配,以及通信系统的优化 Shannon的三个编码定理。信息论诞生五十年来,至今,仍然是指导通信技术发展的理论基础,是创新通信体
3、制的源泉。香农信息(概率信息)信息是事物运动状态或存在方式的不确定性的描述。在通信系统中形式上传输的是消息,但实质上传输的是信息信源信宿信道消息干扰或噪声(发信者)(收信者)通信系统框图 样本空间:某事物各种可能出现的不同状态,即所有可能选择的消息的集合。对于离散消息的集合,概率测度是对每一个可能选择的消息指定一个概率。一个样本空间和它的概率测度称为一个概率空间。表示:X,P 在离散情况下:其中,P(ui)为选择符号 ui作为消息的概率,称为先验概率先验概率)(,),(),(,)(2121qquPuPuPuuuuPU信源数学模型 后验概率后验概率:条件概率 接收端收到消息(符号)后而发送端发的
4、是 的概率。自信息:消息 发生后所含有的信息量,反映了消息 发生前的不确定性:)|(jivuPjviuiuiu)(log)(1log)(iiiuPuPuI 信源熵 定义:信源各个离散消息的自信息量的数学期望(即概率加权的统计平均值)为信源的平均信息量,一般称为信源的信息熵,也叫信源熵或香农熵,有时也称为无条件熵或熵函数,简称熵。公式:熵函数的自变量是X,表示信源整体,实质上是无记忆信源平均不确定性的度量。单位:以2为底,比特/符号)(log)()(1log)()(212iniiiixpxpxpExIEXH互信息 后验熵:当接收到输出符号V=vj后,信源的平均不确定性,即输入符号U的信息度量 条
5、件熵:对后验熵在输出符号集V中求期望称为信道疑义度。表示在输出端收到全部输出符号V后,对于输入端的符号集U尚存有不确定性(有疑义),这是由于存在干扰(噪声)引起的。H(U|V)H(U),表明接收到符号集V的所有符号后,关于输入符号U的平均不确定性减少了。)|(log)|()|(1log)|()|(212jinijijijijvupvupvupEvuIEvUH)|(log)|()()|()|(211jinijinjjjvupvupvpvUHEVUH 互信息互信息:先验的不确定性减去收到输出符号集V后尚存在的不确定性,表示收信者获得的信息量,也称信息增益)|()(),(VUHUHVUI7.2 ID
6、3算法 决策树(Decision Tree)方法:决策树方法的起源是概念学习系统CLS,然后发展到由Quiulan研制ID3方法,然后到著名的C4.5算法,C4.5算法的一个优点是它能够处理连续属性。决策树又称为判定树,是运用于分类的一种树结构。其中的每个内部结点代表对某个属性的一次测试,每条边代表一个测试结果,叶结点代表某个类或者类的分布,最上面的结点是根结点。7.2 ID3算法(续)ID3算法思想:1.任意选取一个属性作为决策树的根结点,然后就这个属性所有的取值创建树的分支;2.用这棵树来对训练数据集进行分类,如果一个叶结点的所有实例都属于同一类,则以该类为标记标识此叶结点;如果所有的叶结
展开阅读全文