机器学习研究进展.ppt课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习研究进展.ppt课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 研究进展 ppt 课件
- 资源描述:
-
1、1机器学习研究进展第九届中国机器学习会议 2004年10月感谢你的观看2019年8月25连接机器学习连接机器学习符号机器学习符号机器学习遗传机器学习遗传机器学习分析机器学习分析机器学习机器学习研究的变迁机器学习研究的变迁Carbonell(1989)展望展望Dietterich(1997)展望展望?统计机器学习统计机器学习集成机器学习集成机器学习符号机器学习符号机器学习增强机器学习增强机器学习流形机器学习流形机器学习半监督机器学习半监督机器学习多实例机器学习多实例机器学习RankingRanking机器学习机器学习数据流机器学习数据流机器学习应用驱动的机器学习研究应用驱动的机器学习研究连接主义
2、连接主义符号主义符号主义行为主义行为主义目前,以目前,以“主义主义”争霸的争霸的时代已经过去,不同方法时代已经过去,不同方法解决不同问题。解决不同问题。 2感谢你的观看2019年8月253对统计机器学习的说明nDietterich将感知机类的连接机器学习分离出来,并根据划分机理,将其分为两种类型:统计机器学习与集成机器学习。这意味着,感知机类机器学习是重点n强调:(1)表示:非线性问题的线性表示(2)泛化:以泛化能力为基础的算法设计感谢你的观看2019年8月254对增强机器学习的说明n“适应性”是控制理论中最重要的概念之一,以往在计算机科学中考虑较少n1975年,Holland首先将这个概念引
3、入计算机科学。1990年左右,MIT的Sutton等青年计算机科学家,结合动态规划等问题,统称其为增强机器学习n这样,遗传学习成为实现增强机器学习的一种方法感谢你的观看2019年8月255对符号机器学习的说明n尽管经过十年,符号机器学习被保留,然而,其目标和内涵已发生很大的变化n改变泛化目标为符号描述(数据挖掘)。这意味着,符号机器学习已不是与统计机器学习竞争的研究,而是一个研究目标与其不同的研究范式感谢你的观看2019年8月256分析机器学习被放弃n分析机器学习所包含的类比、解释等问题对背景知识有更高的要求,这从表示到学习均需要考虑新的理论基础,在这些理论未出现之前,其淡出机器学习研究的视野
4、是自然的感谢你的观看2019年8月257近几年的发展动向n由于真实世界的问题十分困难,现有的理论、方法,甚至理念已不能满足需要,由此,大量近代数学的研究结果被引入计算机科学,由此,形成新的机器学习范式感谢你的观看2019年8月258特点n从Carbonell到Dietterich的特点是:(1)在算法设计理论上,基础代替随意的算法设计,具体地说,更为强调机器学习的数学基础(2)应用驱动代替理论驱动(认知科学与算法的Open问题)。具体地说,从AI中以“学习”机制驱动(智能)”的研究方式,改变为根据面临的实际问题发展新的理论与方法感谢你的观看2019年8月259统计机器学习的要点n目前,统计机器
5、学习的研究主要集中在两个要点上:表示问题泛化问题非线性问题在线形空间的表示 对给定样本集合, 通过算法建立模型,对问题世界为真的程度感谢你的观看2019年8月2510线性表示n计算:非线性算法一般是NP完全的。n认识世界:只有在某个空间中可以描述为线性的世界,人们才说,这个世界已被认识(将问题变换为另一个问题)n数学方法:寻找一个映射,将非线性问题映射到线性空间,以便其可以线性表述感谢你的观看2019年8月2511例子-XOR问题xy0001例子:例子:XORXOR问题:问题:映射:( (x,y)x,y)(x,xy,y(x,xy,y) )线形表示:线形表示:感谢你的观看2019年8月2512在
6、机器学习中的方法n寻找具有一般意义的线性空间(方法)n目前,机器学习主要采用两种方法:(1)整体线性,Hilbert空间(核映射)(2)类似分段线性,Madaline或弱分类方法感谢你的观看2019年8月2513Hilbert空间nHilbert空间是Von Neumman为量子力学数学基础提出的一类具有一般意义的线性内积空间n在机器学习中借助Hilbert空间构成特征空间感谢你的观看2019年8月2514线性不可分机器学习问题n将线性不可分问题变为线性可分问题的关键是寻找一个映射,将样本集映射到特征空间,使其在特征空间线性可分n这样,我们只需以感知机为基础,研究统计机器学习问题。感谢你的观看
7、2019年8月2515困难特征空间基的选择n选择特征空间的基n特征空间的基可以采用多项式基或三角函数基n寻找一般的方法描述特征空间存在根本性困难(维数灾)n与神经网络相比,核函数的选择可以借助领域知识,这是一个优点感谢你的观看2019年8月2516理论描述n是否可以不显现地描述特征空间,将特征空间上描述变为样本空间上的描述?n如果不考虑维数问题,在泛函分析理论上,这是可行的n这就是核函数方法感谢你的观看2019年8月25泛化能力描述Duda(1973)Vapnik(1971)样本集:样本个数趋近无穷大 有限样本,样本集内部结构(VC维)泛化关系:模型与泛化随机选择样本集的随机变量样本集、模型与
8、泛化泛化能力描述:以概率为1成立以概率1-成立泛化不等式:?(无法指导算法设计)最大边缘(指导算法设计)17感谢你的观看2019年8月2518“泛化误差界”研究的演变nPAC界(Valiant1984)nVC维界(Blumer1989)n最大边缘(Shawe-Taylor1998)感谢你的观看2019年8月2519最大边缘(Shawe-Taylor1998)loglog)(222lMRlcherrM0,边缘不能等于零。这意味着,样本集合必须是可划分的。边缘最大,误差界最小,泛化能力最强。泛化能力可以使用样本集合的边缘刻画。这个不等式依赖于边缘M。贡献:给出了有几何直观的界描述,从而为算法设计奠
9、定基础。感谢你的观看2019年8月2520研究趋势n算法的理论研究基本已经完成,根据特定需求的研究可能是必要的n目前主要集中在下述两个问题上:(1)泛化不等式需要样本集满足独立同分布,这个条件太严厉,可以放宽这个条件?(2)如何根据领域需求选择核函数,有基本原则吗?感谢你的观看2019年8月2521集成机器学习的来源n神经科学:Hebb神经细胞工作方式n数学方法:非线性问题的分段化(类似)n计算技术:Widrow的Madaline模型n统计理论:PAC的弱可学习理论感谢你的观看2019年8月2522Ensemble(集成)n1954年,Hebb使用这个单词来说明视觉神经细胞的信息加工方式n假设
展开阅读全文