随机森林及CART的算法课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《随机森林及CART的算法课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 随机 森林 CART 算法 课件
- 资源描述:
-
1、 随机森林的基本思想:随机森林的基本思想: 通过自助法通过自助法(boot-strap)(boot-strap)重采样技术重采样技术, ,不断不断生成训练样本和测试样本生成训练样本和测试样本, ,由训练样本生成多个分由训练样本生成多个分类树组成随机森林类树组成随机森林, ,测试数据的分类结果按分类树测试数据的分类结果按分类树投票多少形成的分数而定。投票多少形成的分数而定。 随机森林有两个重要参数:随机森林有两个重要参数: 一是树节点预选的变量个数;一是树节点预选的变量个数; 二是随机森林中树的个数。二是随机森林中树的个数。随机森林随机森林 AdaBoosting(Adaptive Boosti
2、ng) 对每个样本赋予一个权重,代表该样本被当前分类器选入训练集的概率,并根据预测函数的输出与期望输出的差异调整权重:如某个样本点已被正确分类,则它的权重减小,否则,它的权重增大;通过这种方式,使得学习算法能集中学习较难判别的样本。 经过T轮训练,得到T个分类函数 f1,f2,fT及对应的权重1, 2, T,最终的分类规则为加权投票法 Bagging(Breiman,1996) 在训练的每一轮中,均从原始样本集S中有放回地随机抽取训练样本集T(T的样本个数同S),这样一个初始样本在某轮训练中可能出现多次或根本不出现( S中每个样本未被抽取的概率为(1-1/|S|)|S|0.368,当|S|很大
3、时)。 最终的分类规则为简单多数投票法或简单平均法随机森林算法 随机森林算法是Leo Breiman于2001年提出的一种新型分类和预测模型,它具有需要调整的参数较少、不必担心过度拟合、分类速度很快, 能高效处理大样本数据、能估计哪个特征在分类中更重要以及较强的抗噪音能力等特点, 因此, 在基因芯片数据挖掘、代谢途径分析及药物筛选等生物学领域得到应用并取得了较好的效果。该方法是基于决策树(decision tree) 的分类器集成算法。 自助法重采样 在统计量重采样技术中,一种新方法是自助法(bootstrap)。自助法是从原始的样本容量为N的训练样本集合中随机抽取N个样本生成新的训练样本集,
4、抽样方法为有放回抽样,这样重新采样的数据集不可避免地存在着重复的样本。独立抽样k次,生成k个相互独立的自助样本集。随机森林算法基本原理 随机森林是通过一种新的自助法重采样技术生成很多个树分类器, 其步骤如下:1. 从原始训练数据中生成个自助样本集, 每个自助样本集是每棵分类树的全部训练数据。2. 每个自助样本集生长为单棵分类树。在树的每个节点处从个特征中随机挑选个特征 (), 按照节点不纯度最小的原则从这个特征中选出一个特征进行分支生长。这棵分类树进行充分生长, 使每个节点的不纯度达到最小, 不进行通常的剪枝操作。 根据生成的多个树分类器对新的数据进行预测,分类结果按每个树分类器的投票多少而定
5、。 随机森林通过在每个节点处随机选择特征进行分支,最小化了各棵分类树之间的相关性,提高了分类精确度。因为每棵树的生长很快,所以随机森林的分类速度很快,并且很容易实现并行化。 森林中单颗树的分类强度(Strength):每颗树的分类强度越大,则随机森林的分类性能越好。 森林中树之间的相关度(Correlation):树之间的相关度越大,则随机森林的分类性能越差。 CART是L.Breiman等人在1984 年提出的决策树算法,其原理与ID3相似,在CART中提出了杂度削减的概念,按杂度削减最大分裂节点生长决策树,与ID3不同的是,CART最终生成二叉树,然后利用重采技术进行误差估计和树剪枝,然后
展开阅读全文