第8章 adaboost.pptx

上传人（卖家）：淡淡的紫竹语嫣

文档编号：1107928

上传时间：2021-02-22

格式：PPTX

页数：75

大小：1.51MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

2.5 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《第8章 adaboost.pptx》由用户（淡淡的紫竹语嫣）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 第8章 adaboost

资源描述：: 1、第八章 Adaboost 提纲 AdaBoost的起源和基本概念 AdaBoost算法前向分步训练算法 AdaBoost 编程 AdaBoost实时人脸检测算法 1984，Kearns和Valiant：强可学习(strongly learnable)和弱可学习(weakly learnable) 在概率近似正确（probably approximately correct, PAC) 学习的框架中，一个概念（类），如果存在一个多项式的学习算法能够学习它，并且正确率很高，称这个概念是强可学习的；一个概念（类），如果存在一个多项式的学习算法能够学习它，学习的正确率仅比随机猜测略好，则称
2、这个概念是弱可学习的。 1989, Schapire，证明：在PAC学习的框架下，一个概念是强可学习的充分必要条件是这个概念是弱可学习。 Adaboost的起源问题的提出：只要找到一个比随机猜测略好的弱学习算法就可以直接将其提升为强学习算法，而不必直接去找很难获得的强学习算法。 Adaboost的起源例如：学习算法A在a情况下失效，学习算法B在b情况下失效，那么在a情况下可以用B算法，在b情况下可以用A 算法解决。这说明通过某种合适的方式把各种算法组合起来，可以提高准确率。为实现弱学习互补，面临两个问题：（1）怎样获得不同的弱分类器？（2）怎样组合弱分类器？怎样实现
3、弱学习转为强学习使用不同的弱学习算法得到不同基本学习器参数估计、非参数估计使用相同的弱学习算法，但用不同的参数 K-Mean不同的K，神经网络不同的隐含层相同输入对象的不同表示凸显事物不同的特征使用不同的训练集装袋（bagging）提升（boosting）怎样获得不同的弱分类器也称为自举汇聚法(boostrap aggregating) 从原始数据集选择S次后得到S个新数据集新数据集和原数据集的大小相等每个数据集都是通过在原始数据集中随机选择样本来进行替换而得到的。 S个数据集建好之后，将某个学习算法分别作用于每个数据集就得到S个分类器。选择分类器投票结果中最多的类
4、别作为最后的分类结果。改进的Bagging算法，如随机森林等。 Bagging 多专家组合一种并行结构，所有的弱分类器都给出各自的预测结果，通过 “组合器”把这些预测结果转换为最终结果。 eg.投票（voting）及其变种、混合专家模型多级组合一种串行结构，其中下一个分类器只在前一个分类器预测不够准（不够自信）的实例上进行训练或检测。 eg. 级联算法（cascading）怎样组合弱分类器怎样组合弱分类器 1990年，Schapire最先构造出一种多项式级的算法，即最初的Boost算法; 1993年，Drunker和Schapire第一次将神经网络作为弱学习器，应用Boos
5、ting算法解决OCR问题; 1995年，Freund和Schapire提出了Adaboost(Adaptive Boosting)算法，效率和原来Boosting算法一样，但是不需要任何关于弱学习器性能的先验知识，可以非常容易地应用到实际问题中。 Adaboost的提出 AdaBoost Adaptive A learning algorithm Building a strong classifier a lot of weaker ones Boosting Adaboost基本概念 1 1), 1(h x . . . Weak classifiers slightly better
6、 than random 1 ( )( ) T t tTt h xHxsign 2 1), 1(h x 1(), 1 T hx strong classifier Adaboost基本概念两个问题如何解决：每一轮如何改变训练数据的权值或概率分布？ AdaBoost：提高那些被前一轮弱分类器错误分类样本的权值，降低那些被正确分类样本的权值如何将弱分类器组合成一个强分类器？ AdaBoost：加权多数表决，加大分类误差率小的弱分类器的权值，使其在表决中起较大的作用，减小分类误差率大的弱分类器的权值，使其在表决中起较小的作用。 Adaboost基本概念 Adaboost基本概念输入：二
7、分类的训练数据集，输出：最终分类器G(x) 1 初始化训练数据的起始权值分布 AdaBoost算法 2 对m个弱分类器 m=1,2，。M a、在权值Dm下训练数据集，得到弱分类器 b、计算Gm的训练误差 c、计算Gm的系数 d、更新训练数据集的权值分布 Z是规范化因子 AdaBoost算法 3、构建弱分类器的线性组合，得到最终分类器： AdaBoost算法步骤 b 步骤 c 步骤 d 误分类的样本权值放大 AdaBoost算法说明初始化对m=1 a、在权值分布为D1的数据集上，阈值取2.5，分类误差率最小，基本弱分类器： b、G1(x)的误差率： c、G1(x)的系数：例子：
8、 d、更新训练数据的权值分布弱基本分类器G1(x)=signf1(x)在更新的数据集上有3 个误分类点例子：对m=2 a、在权值分布D2上，阈值v=8.5时，分类误差率最低 b、误差率 c、计算 d、更新权值分布分类器G2(x)=signf2(x)有三个误分类点例子：对m=3 a、在权值分布D3上，阈值v=5.5时，分类误差率最低 b、误差率 c、计算 d、更新权值分布分类器G3(x)=signf3(x)误分类点为0 例子： Weak Classifier 1 Boosting illustration Weights Increased Boosting illustratio
9、n Weak Classifier 2 Boosting illustration Weights Increased Boosting illustration Weak Classifier 3 Boosting illustration Final classifier is a combination of weak classifiers Boosting illustration 由：定理：AdaBoost算法最终分类器的训练误差界为： AdaBoost的训练误差分析证明：前面部分很明显，证后面，由 AdaBoost的训练误差分析定理：二分类问题AdaBoost的训练误差
10、界为：证明：前面， AdaBoost的训练误差分析定理：二分类问题AdaBoost的训练误差界为：证明：后面，由ex和在x=0的泰劳展开得：进而得证。 AdaBoost的训练误差分析定理：如果存在 0，对所有的m有 m ，则即：训练误差为指数下降。注意：AdaBoost算法不需要知道下界，这正是Freund与Schapire设计 AdaBoost时所考虑的，与一些早期的提升方法不同，AdaBoost具有适应性，即它能适应弱分类器各自的训练误差率，这也是它的名称(适应的提升)的由来，Ada是Adaptive的简写 AdaBoost的训练误差分析 AdaBoost 模型：加法
11、模型损失函数：指数函数学习算法：前向分步算法的二分类学习算法 AdaBoost算法的解释加法模型（additive model）给定训练数据和损失函数 L(y, f(x), 学习加法模型f(x) 成为经验风险极小化即损失函数极小化问题：基函数的参数基函数基函数的系数复杂的优化问题前向分步算法前向分步算法Forward stagewise algorithm 求解思路：根据学习的是加法模型，如果能够从前向后，每一步只学习一个基函数及其系数，逐步逼近优化目标函数式，具体，每步只需优化如下损失函数：前向分步算法输入：训练数据集损失函数，基函数集输出：加法模型f(x
12、) 1 初始化 f0(x)=0 2 对m=1，2，M a、极小化损失函数得到参数m，m b、更新 3 得到加法模型前向分步算法定理： AdaBoost算法是前向分步加法算法的特例，模型是由基本分类器组成的加法模型，损失函数是指数函数证明：前面部分很明显：后面部分证明损失函数是指数函数（exponential loss function）假设经过m-1轮迭代前向分步算法得到fm-1(x): 在第m轮迭代得到前向分步算法在第m轮迭代得到目标：即：现证使上式最小的就是AdaBoost算法得到的不依赖和G,依赖于fm-1(x),随着每一轮迭代改变前向分步算法首先，求
13、；对任意 0，使式最小的G(x)由下式得到：即为AdaBoost算法的基本分类器，为使第 m轮加权训练数据分类误差率最小的基本分类器前向分步算法求由将已求得的代入，对求导并使导数为0，得：与AdaBoost的m完全一致前向分步算法每一轮样本权值的更新，由：可得：与AdaBoost的权值更新一致，相差规范化因子，因而等价。前向分步算法提升树是以分类树或回归树为基本分类器的提升方法；提升树被认为是统计学习中性能最好的方法之一。提升树模型 (boosting tree) 提升方法实际采用：加法模型(即基函数的线性组合)与前向分步算法，以决策树为基函数；
14、对分类问题决策树是二叉分类树，对回归问题决策树是二叉回归树，基本分类器xv，可以看作是由一个根结点直接连接两个叶结点的简单决策树，即所谓的决策树桩(decision stump)。提升树前向分步算法：首先确定初始提升树：第m步的模型：其中，fm-1(x)为当前模型，通过经验风险极小化确定下一棵决策树的参数m 由于树的线性组合可以很好地拟合训练数据，即使数据中的输入与输出之间的关系很复杂也是如此，所以提升树是一个高功能的学习算法。提升树算法针对不同问题的提升树学习算法，使用的损失函数不同：用平方误差损失函数的回归问题，用指数损失函数的分类问题，用一般损失函数的一般决
15、策问题。对二类分类问题：提升树算法只需将AdaBoost算法中的基本分类器限制为二类分类树即可，这时的提升树算法是AdaBoost算法的特殊情况。讨论回归问题提升树：提升树算法回归问题提升树：已知训练数据集： X为输入空间，y为输出空间，将X划分为J个互不相交的区域R1,R2,.Rj, 并且在每个区域上确定输出的常量cj，那么，树可表示为： J是回归树的复杂度即叶结点个数提升树算法前向分步算法：在前向分步算法的第m步，给定当前fm-1 需求解得到第m棵树的参数采用平方损失函数时：提升树算法回归问题的提升树算法 X的取值范围0.5, 10.5,y的取值范围：5.0
16、,10.10,用树桩做基函数；求f1(x)回归树T1(x)，求切分点s：容易求得在R1,R2内部使平方损失误差达到最小值的 c1,c2: 例：各切分点：回归树T1 例：用f1拟合数据的平方误差：第二步：求T2，例：例：提升树利用加法模型与前向分步算法实现学习的优化过程，当损失函数是平方损失和指数损失函数时，每一步优化是很简单的，但对一般损失函数而言，往往每一步优化并不那么容易。针对这一问题，Freidmao提出了梯度提升(gradient boosting)算法. 这是利用最速下降法的近似方法，其关键是利用损失函数的负梯度在当前模型的值作为回归问题提升树算法中的
17、残差的近似值，拟合一个回归树。梯度提升梯度提升算法 Adaboost的实现单层决策树生成函数单层决策树生成函数单层决策树生成函数单层决策树生成函数完整AdaBoost算法的实现完整AdaBoost算法的实现完整AdaBoost算法的实现完整AdaBoost算法的实现基于AdaBoost的分类函数测试算法基于AdaBoost的分类函数测试算法加载数据在马疝病数据集上应用Adaboost 在马疝病数据集上应用Adaboost overfitting 在马疝病数据集上应用Adaboost 相似之处把弱分类器看成SVM的核函数。按照最大化某个最小间隔的方式重写Ada
18、Boost算法。不同二者所定义的间隔计算方式有所不同，导致结果不同。高维空间下，二者间差异会更加明显。 SVM和AdaBoost的关系 1、马疝病 2、垃圾邮件 3、癌症检测分类性能度量指标：正确率、召回率、ROC曲线混淆矩阵 Confusion matrix 非均衡分类问题二分类问题的混淆矩阵 Precision 正确率=TP/(TP+FP) Recall 召回率=TP/(TP+FN) 假阳率=FP/(FP+TN) 真阳率=TP/(TP+FN) 非均匀分类问题非均匀分类问题接收者操作特性（receiver operating Characteristic）成本效益（cost-versus-benefit）曲线下面积（Area Unser theCurve，AUC）非均匀分类问题基于代价函数的分类器决策控制欠抽样（undersampling）过抽样（oversampling）处理非均衡问题的数据抽样方法 END

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：第8章 adaboost.pptx
链接地址：https://www.163wenku.com/p-1107928.html

淡淡的紫竹语嫣

内容提供者

实名认证

联系作者