余志文集成学习算法及应用课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《余志文集成学习算法及应用课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 文集 学习 算法 应用 课件
- 资源描述:
-
1、 集成学习的动机 集成学习的应用 集成学习模型介绍 我们在集成学习方向的研究工作 总结提纲 “大数据”是继“云计算”之后,在信息科技领域出现的一个研究焦点。如何从各种各样的海量数据中挖掘出有价值的规律,为政府和企业的决策提供支持成为新一代信息技术亟需解决的问题。海量数据具有多样性,数据往往来源于不同的传感器。因此,研究如何把来自不同数据源的数据进行融合获取有价值的规律就成为非常值得探讨的问题。集成学习的动机数据集模型1模型2模型3模型4l单一学习模型:有如盲人摸象,从单一视角探索未知数据集,只有一个结果l集成学习模型:集思广益,从不同的视角探索未知的数据集,存在多个学习过程,允许一个或多个学习
2、结果集成学习的动机集成学习的动机集成学习是机器学习主要研究方向之一。一个复杂的问题可以分解为多个简单的子问题,子问题的集成可以解决原问题。集成学习模型能把多个单一学习模型融合为一个综合的模型,并获得一个全局的结果。与单一学习模型相比,集成学习模型能够提高准确率、稳定性和强壮性。集成学习的动机 集成学习的应用 集成学习模型介绍 我们在集成学习方向的研究工作 总结提纲集成学习的应用任务大类分类任务聚类任务半监督学习任务具体任务协同过滤异常检测分布计算多源数据融合多源数据融合数据挖掘竞赛人脸识别电影推荐集成学习的应用 集成学习的动机 集成学习的应用 集成学习模型介绍 我们在集成学习方向的研究工作 总
3、结提纲集成学习的类型单一学习模型:分类任务Support vector machine(SVM),Neural network,Decision tree,Bayesian classifier,Nearest neighbor classifier,.聚类任务Partition clustering(K-means),Hierarchical clustering,Model based clustering,Density based clustering,Scalable clustering,.半监督学习任务集成学习的类型集成学习模型:分类集成模型 Bagging,Boosting,R
4、andom subspace,Random forest,Rotation forest,Neural network ensemble,.半监督集成模型Semi-supervised classifier ensemble,Semi-supervised clustering ensemble集成学习的类型聚类集成模型(Cluster ensemble or consensus clustering)基于图论的聚类集成-Graph based cluster ensemble聚类结构集成-Cluster structure ensemble多聚类结果-Multiple clustering
5、solutions协同聚类-Collaborative clustering 多视图聚类-Multi-view clustering多源聚类-Multi-source clustering 聚类结果选择-Clustering solution selection分类集成学习模型介绍分类集成学习模型分类集成学习模型介绍Bagging:样本维,基础模型间为并联关系,针对学习结果的集成Random subspace:属性维,基础模型间为并联关系,针对学习结果的集成分类集成学习模型介绍分类集成学习模型介绍Adaboost:样本维,基础模型间为串联关系,针对学习过程的集成半监督分类集成学习模型介绍半监督
6、分类集成学习模型流程图聚类集成学习模型介绍聚类集成学习模型流程图聚类集成学习模型介绍聚类集成(cluster ensemble)两个阶段:集成器生成阶段生成一组聚类结果,这组聚类结果之间的差异性越大越好一致性函数阶段寻找一个更优的综合结果,能够有效地融合集成器中的多个聚类结果 集成学习的动机 集成学习的应用 集成学习模型介绍 我们在集成学习方向的研究工作 总结提纲我们的研究工作我们的研究工作围绕以上研究工作,我们的研究团队在集成学习理论及其应用,特别是聚类集成算法,取得了良好的科研成果:共发表科研论文100多篇,其中SCI论文46篇(含录用),IEEE Transactions系列长文21篇(
7、包括TKDE、TEC、TCYB、TMM、TCBB、TCSVT、TNB等),Pattern Recognition论文4篇,Information Science论文3篇,Bioinformatics论文2篇,等。研究创新点及科学意义1.设计渐进式集成框架,移除集成器中的冗余成员集成器成员之间的差异性越大越好,但并非所有集成器成员都对最终结果有贡献。因此需要移除冗余成员,从而增加集成器多样性,提升其性能。我们提出了一类新的集成框架渐进式集成框架,其特色在于:设计了基于全局和局部代价函数的渐进式集成器成员选择过程,用于移除集成器中的冗余成员;设计了基于随机组合数据映射操作的集成器成员生成方式,充分
8、利用不同维度下的随机组合数据映射操作和混合聚类技术,生成一 个合适的集成器;设计了混合聚类结果选择策略,有机地融合不同特征选择算法所获取的学习结果。动机:1.大部分传统聚类集成算法在处理高维数据时难以获得满意的结果。2.传统聚类集成算法把所有集成器成员都考虑进去,然而有些集成器成员对最终结果不但没有贡献,往往还是有害的。Reference:Zhiwen Yu,Peinan Luo,Jane You,Hau-San Wong,Hareton Leung,Si Wu,Jun Zhang,Guoqiang Han,Incremental Semi-supervised Clustering Ense
9、mble for High Dimensional Data Clustering,IEEE Transactions on Knowledge and Data Engineering,vol.28,no.3,pp.701-714,2016.渐进式半监督聚类集成 提出了渐进式半监督聚类集成方法(ISSCE),用于处理高维数据。贡献:1.提出了一个全局目标函数和局部代价函数,用于渐进式地对集成器成员进行选择。2.新设计了相似性函数用于衡量子空间中两组属性的相似程度。渐进式半监督聚类集成渐进式半监督聚类集成框架(ISSCE)ISSCE采用渐进式集成器成员选择过程生成新的集成器。渐进式集成器成员选
10、择过程主要依靠全局目标函数和局部代价函数来选择新集成器成员。全局目标函数有利于全局搜索,而局部代价函数则适合局部搜索。局部代价函数不仅考虑了两个子空间的相似性,还考虑了聚类结果的目标函数值,有利于提高选择过程的自适应性。渐进式半监督聚类集成 Reference:Zhiwen Yu,Peinan Luo,Jane You,Hau-San Wong,Hareton Leung,Si Wu,Jun Zhang,Guoqiang Han,Incremental Semi-supervised Clustering Ensemble for High Dimensional Data Clusterin
11、g,IEEE Transactions on Knowledge and Data Engineering,vol.28,no.3,pp.701-714,2016.全局目标函数 实验 数据集衡量指标The Normalized mutual informationThe adjusted Rand index18 真实数据集渐进式半监督聚类集成 随机子空间技术能够减轻高维数据对所提出方法ISSCE的影响。渐进式集成器成员选择过程能够移除ISSCE中多余的成员,从而提高ISSCE的性能。The Comparisons among different semi-supervised cluster
12、ing ensemble approaches w.r.t the ARI values 结论1.渐进式集成器成员选择过程是一项通用的技术,能够应用于不同的半监督聚类集成中。2.所提出的方法ISSCE在大多数数据集中都取得了比传统半监督聚类集成更好的性能,尤其是在高维数据集中。渐进式半监督聚类集成研究创新点及科学意义2.提出基于随机子空间和图论的聚类集成算法,提高聚类结果融合质量 聚类集成算法的集成器中聚类结果的类的对应关系复杂,如右图所示,每个结果中的类数目不同,类标签不一致,分类集成中的投票机制并不适用,因此需要设计新的一致性函数来对多个聚类结果进行融合。我们提出基于随机子空间和图论的聚类
13、集成算法,其特色在于:利用随机子空间技术处理高维带噪音数据;构造一致性矩阵,利用图论规范切算法构造一致性函数,对一致性矩阵进行分割;引入专家知识,把数据集先验知识转换成约束条件,加入到集成器中 动机:1.应用驱动,例如:不同研究小组所获得肺癌基因表达数据集共享了许多相似的特性,是否能够寻找一个最具代表性的聚类结构,该聚类结构能够把握住这些相似的特性?2.大多数聚类集成算法只考虑如何对齐来自不同聚类结果的个体标号,而忽略了来自不同数据源的聚类结构。Reference:Zhiwen Yu,Xianjun Zhu,Hau-San Wong,Jane You,Jun Zhang,Guoqiang Ha
14、n,Distribution based Cluster Structure Selection,IEEE Transactions on Cybernetics,2016(DOI:10.1109/TCYB.2016.2569529).聚类结构集成 在现实生活中,许多数据源都会随时间而逐渐变化,来自不同聚类结果的个体标号也会随之变化;数据集的结构比数据的标记在很多情况下更有用;寻找最具代表性的聚类结构比寻找最具代表性的聚类个体标号更值得大家去研究。聚类结构集成ClusterensembleStructureensembleDistributeddata1Distributeddata2Dist
15、ributeddata3Distributeddata4聚类结构集成 数据集生成数据集生成 K-means 生成初始聚类结构生成初始聚类结构 EM 估计聚类结构参数估计聚类结构参数 聚类结构选择聚类结构选择 聚类结构超图表示聚类结构超图表示 超图分割得到最终结构超图分割得到最终结构 样本分配样本分配基于高斯混合分布的聚类结构集成框架基于高斯混合分布相似度的聚类结构选择其中DMM为高斯混合模型距离度量 选择策略选择策略1:选择相似度分数最低最低的 B 个高斯混合模型 选择策略选择策略2:选择相似度分数最高最高的 B 个高斯混合模型 选择策略选择策略3:选择相似度分数中等中等的 B 个高斯混合模型
16、 选择策略选择策略4:随机选择 B 个高斯混合模型 选择策略选择策略5:基于概率选择B 个高斯混合模型 高斯混合模型相似度分数 基于相似度的聚类结构选择策略基于高斯混合分布的相似度衡量subject toUpdate rule of confidence score:基于高斯混合的分布相似度衡量基于超图分割的聚类结构获取a)点点b)超边超边c)权值权值 高斯混合模型的超图表示(G=(V,E,W))每个高斯模型的Q-近邻模型构成一个超边,超边的度为模型数:利用N-CUT对高斯混合模型超图进行分割,得到最终聚类结构 提出了基于高斯混合分布的聚类结构集成算法。贡献:1.提出了研究多种度量两组高斯混合
17、分布之间的相似性的新方法,特别是基于图论最佳匹配的距离函数。2.设计了基于分布的超图算法作为聚类结构一致性函数来寻找最具代表性的聚类结构。3.设计了基于评估函数的聚类结构选择策略,可以获取一组有用的聚类结构。聚类结构集成 实验 聚类结构集成数据集数据集 13个UCI 真实数据集 3 个KEEL真实数据集 4 个基因数据集 Normalize mutual information(NMI)衡量衡量指标指标对比算法对比算法简称简称K-means algorithmKMExpectation-Maximization algorithmEMNeural gas algorithmNGHierarch
18、ical clustering algorithmHCFast density based algorithmDPDSCE与单一聚类算法对比 与传统聚类算法对比,DSCE聚类效果更好DSCE与聚类集成算法对比对比算法对比算法简称简称Cluster ensemble based on K-means and normalized cutKMCECluster ensemble based on hierarchical clustering and normalized cutHCCECluster ensemble based on neural gas and normalized cutN
19、GCECluster ensemble based on bagging and K-means BGKMCluster ensemble based on bagging and neural gas BGNGCluster ensemble based on bagging and SOMBGSOM 与State-of-art的聚类集成算法对比,DSCE聚类效果更好 结论1.基于高斯混合模型相似度选择算法的在聚类结构选择中有显著效果,超图分割能适用于聚类结构的获取。2.所提出的聚类结构集成方法DSCE在大多数数据集中都比传统单一聚类、聚类集成算法有更好的聚类效果。聚类结构集成研究创新点及科
20、学意义3.提出自适应集成框架,对集成器内在和外在环境进行优化 传统集成学习框架没有考虑到外在环境(如:样本空间和属性空间)和内在环境(基本分类器的参数和基本分类器的权重)的影响,造成集成器的性能无法进一步提升。因此,需要考虑如何适应外在环境和内在环境的综合影响,自适应地寻找最优的集成学习模型。我们提出自适应集成框架,优化集成器的内在环境和外在环境,如下图示:自适应集成框架会根据解决问题的需要进行一定的信息交互,不断地进行调整,直到达到最佳的状态。自适应集成框架将在传统集成框架的基础上,从多个不同角度加入自适应学习过程,从而获取最优的集成框架 自适应集成学习=自适应过程+集成学习 Self Ad
21、aptive Ensemble Learning=self adaptive process ensemble learning TEVC2011:基于近邻知识的演化算法TCYB2015:混合自适应分类集成TCBB2015:自适应模糊聚类集成TKDE2015b:自适应噪音免疫聚类集成集成学习模型优化集成学习模型优化 基于随机子空间的分类集成框架(RSCE)混合自适应分类集成 原有框架的局限性:l 基于随机子空间的分类集成框架把每个子空间都看作同等重要,忽略了不同子空间及相应分类器的不同重要性。l 每个随机子空间集合都包含了一组随机子空间。不同的随机子空间集合将导致不同的分类器组合。原有框架没有
22、考虑到如何选择合适的随机子空间集合。Reference:Zhiwen Yu,Le Li,Jiming Liu,Guoqiang Han,Hybrid Adaptive Classifier Ensemble,IEEE Transactions on Cybernetics,vol.45,no.2,pp.177-190,2015.混合自适应分类集成目标:设计一个通用的混合自适应集成学习框架,并把它应用于基于随机子空间的分类集成算法的优化。混合自适应分类集成 目标函数混合自适应分类集成集成学习框架中单一自适应过程流程图The adaptive process of base classifier
23、competition in SAEL 混合自适应分类集成混合自适应优化过程(HAEL)Reference:Zhiwen Yu,Le Li,Jiming Liu,Guoqiang Han,Hybrid Adaptive Classifier Ensemble,IEEE Transactions on Cybernetics,vol.45,no.2,pp.177-190,2015.混合自适应分类集成 实验 数据集衡量指标准确率 Accuracy36 真实数据集6 癌症基因表达数据集混合自适应分类集成The Comparisons among different classifier ensemb
展开阅读全文