选择性集成课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《选择性集成课件.ppt》由用户(ziliao2023)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 选择性 集成 课件
- 资源描述:
-
1、周志华周志华http:/ Learning)是一种机器学习范式,它使用多个(通常是同质的)学习器来解决同一个问题 问题.问题集成学习中使用的多个学习器称为个体学习器当个体学习器均为决策树时,称为“决策树集成”当个体学习器均为神经网络时,称为“神经网络集成”由于集成学习技术可以有效地提高学习系统的泛化能力,因此它成为国际机器学习界的研究热点,并被国际权威 T.G.Dietterich 称为当前机器学习四大研究方向之首T.G.Dietterich,AIMag97问题:对20维超立方体空间中的区域分类左图中纵轴为错误率从上到下的四条线分别表示:平均神经网络错误率最好神经网络错误率两种神经网络集成的错
2、误率令人惊奇的是,集成的错误率比最好的个体还低 L.K.Hansen&P.Salamon,TPAMI90集成学习技术已经在行星探测、地震波分析、Web信息过滤、生物特征识别、计算机辅助医疗诊断等众多领域得到了广泛的应用只要能用到机器学习的地方,就能用到集成学习期望结果个体1(精度33.3%)个体2(精度33.3%)个体3(精度33.3%)集成(精度33.3%)投票个体必须有差异期望结果个体1(精度33.3%)个体2(精度33.3%)个体3(精度33.3%)集成(精度0%)投票个体精度不能太低EEA个体学习器越精确、差异越大,集成越好A.Krogh&J.Vedelsby,NIPS94既然多个个体
3、的集成比单个个体更好,那么是不是个体越多越好?更多的个体意味着:在预测时需要更大的计算开销,因为要计算更多的个体预测 更大的存储开销,因为有更多的个体需要保存个体的增加将使得个体间的差异越来越难以获得22111212NNNijikkijii kNCNCN EMany Could be Better Than All:在有一组个体学习器可用时,从中选择一部分进行集成,可能比用所有个体学习器进行集成更好Z.-H.Zhou et al.,AIJ02从一组个体学习器中排除出去的个体(k)应满足:分类110jmjkjjjjj SumSgnSumfd回归遗憾的是,上述公式在解决实际问题时难以直接使用.w1
4、w2.wn利用遗传算法进化.遗传算法选择随机生成若干权向量,权向量的每个分量对应了一个个体学习器,这些权向量被遗传算法进化,得到一个最优权向量,它表示了各个体学习器在构成集成时的“重要性”,据此进行个体的选择假设 w2 1/n 分类:有排除的投票 回归:有排除的平均为了证明选择性集成学习的可操作性,我们提出了GASEN算法w11w12.w1nw21w22.w2nwm1wm2.wmn随机生成一个权向量群体.Z.-H.Zhou et al.,AIJ02与著名的集成学习算法Bagging和Boosting相比,GASEN 获得了更高的(或相当的)精度,而且使用的个体学习器少得多(回归:19%(3.7
5、1/20);分类:36%(7.10/20.0)Z.-H.Zhou et al.,AIJ02221bias2xFHy YP Yy xP Yy x21variance12xHy YP Yy x给定学习目标和训练集规模,bias 度量了学习算法的平均估计结果与目标的接近程度variance 度量了在同样规模的不同训练集上,学习算法的估计结果的扰动程度以往研究表明,Bagging主要减小variance,而Boosting主要减小bias E.Bauer&R.Kohavi,MLJ99;L.Breiman,TechRep96我们采用的分解机制为 R.Kohavi&W.H.Wolpert,ICML96在回
6、归任务中,GASEN在减小bias和variance方面都优于Bagging和Boosting在分类任务中,GASEN在减小bias方面优于Bagging,在减小variance方面优于Boosting GASEN的成功在于其既可以有效地减小bias,又可以有效地减小varianceZ.-H.Zhou et al.,AIJ02回归分类biasvarianceBill Gates:以人类生物特征进行身份验证的生物识别技术,在今后数年内将成为IT产业最为重要的技术革命人脸 脸部热量图 指纹 手形 手部血管分布 虹膜 视网膜 签名 语音 人脸识别因识别方式友好、可隐蔽而备受学术界和工业界关注(但人脸
展开阅读全文