GBDT算法及其应用-ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《GBDT算法及其应用-ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- GBDT 算法 及其 应用 ppt 课件
- 资源描述:
-
1、LOGOGradient Boosting Decision Tree And Its Application班班级级:*学学生:生:*学号学号:*报告大纲报告大纲第一部分:引言(概念介绍)第一部分:引言(概念介绍) 决策树 boosting方法 损失函数 GBDT定义 第二部分:第二部分:GBDT算法原理算法原理 加法模型 前向分步算法 提升树算法 梯度提升树算法 Regularization第三部分:第三部分:GBDT应用应用 应用范围 实例:CTR预估 GBDT特征转换LR+GBDT第四部分:总结第四部分:总结第一部分:概念介绍第一部分:概念介绍决策树boost方法损失函数GBDT定义
2、第一部分:概念介绍第一部分:概念介绍决策树:决策树:是将空间用超平面进行划分的一种方法是将空间用超平面进行划分的一种方法分类树回归树单决策树时间复杂度较低,模型容易展示,但容易over-fitting决策树的决策树的boost方法:方法:是一个迭代的过程,每一次新是一个迭代的过程,每一次新的训练都是为了改进上一次的结果的训练都是为了改进上一次的结果.传统传统Boost:对正确、错误的样本进行加权,每一步结:对正确、错误的样本进行加权,每一步结束后,增加分错的点的权重,减少分对的点的权重。束后,增加分错的点的权重,减少分对的点的权重。GB:梯度迭代:梯度迭代 Gradient Boosting,
3、每一次建立模型,每一次建立模型是在之前建立的模型损失函数的梯度下降方向是在之前建立的模型损失函数的梯度下降方向第一部分:概念介绍第一部分:概念介绍 损失函数损失函数(loss function): 描述的是模型的不靠描述的是模型的不靠谱程度,损失函数越大,则说明模型越容易出错。谱程度,损失函数越大,则说明模型越容易出错。对于不同的对于不同的Loss function,其梯度有不同的表达,其梯度有不同的表达式:式:第一部分:概念介绍第一部分:概念介绍GBDT(Gradient Boosting Decision Tree) :是:是一种迭代的决策树算法,该算法由多棵决策树组一种迭代的决策树算法,
4、该算法由多棵决策树组成,所有树的结论累加起来做最终结果。成,所有树的结论累加起来做最终结果。GBDT这个算法还有一些其他的名字,这个算法还有一些其他的名字,MART(Multiple Additive Regression Tree),GBRT(Gradient Boost Regression Tree),Tree Net,Treelink等。等。第二部分:第二部分:GBDT算法原理算法原理加法模型前向分步算法提升树算法梯度提升树算法Regularization 第二部分:第二部分:GBDT算法原理算法原理提升树利用加法模型与前向分布算法实现学习的优提升树利用加法模型与前向分布算法实现学习的
5、优化过程。化过程。第二部分:第二部分:GBDT算法原理算法原理前向分布算法前向分布算法第二部分:第二部分:GBDT算法原理算法原理对于决策树,可以表示为:对于决策树,可以表示为:其中参数 表示树的区域划分和各区域上的常数回归问题提升树使用以下前向分步算法回归问题提升树使用以下前向分步算法所以,对于回归问题的提升树算法,所以,对于回归问题的提升树算法, 只需简单拟合当前模型的残差。只需简单拟合当前模型的残差。 第二部分:第二部分:GBDT算法原理算法原理 第二部分:第二部分:GBDT算法原理算法原理当损失函数是平方损失和指数损失函数时,每一步优化是当损失函数是平方损失和指数损失函数时,每一步优化
6、是简单的,但对一般损失函数而言,并不简单。简单的,但对一般损失函数而言,并不简单。Freidman提提出了出了Gradient Boosting算法,利用最速下降法的近似方法,算法,利用最速下降法的近似方法,其关键是利用损失函数的负梯度在当前模型的值其关键是利用损失函数的负梯度在当前模型的值 作为回归问题提升树算法中的残差的近似值,拟合一个回作为回归问题提升树算法中的残差的近似值,拟合一个回 归树。归树。Stochastic Gradient Boosting 当N很大的时候,非常耗费时间,这时我们可以从中随机选取一些数据来拟合。 第二部分:算法原理第二部分:算法原理第二部分:第二部分:GBD
7、T算法原理算法原理Regularization cross validation Shrinkage参数v(0v1)可以认为是boosting方法的学习速率。如果使用很小的v,要达到相当的训练误差,就需要使用较大的M。反之亦然。在通常情况下,较小的v在独立测试集上的 performance更加好,但是这时需要较大的M,比较耗时。 Subsampling使用前面提到的stochastic gradient boosting不仅减少了训练时间,同样可以起到bagging的效果,因为每次随机抽样减小了overfitting的机会。第三部分:第三部分:GBDT应用应用 应用范围 实例:CTR预估LR
展开阅读全文