机器学习算法汇总汇总课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习算法汇总汇总课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器 学习 算法 汇总 课件
- 资源描述:
-
1、2016.112016.11机器学习机器学习(Machine Learning)q基本概念以及数学定义基本概念以及数学定义q基本性质及其物理意义基本性质及其物理意义q具体算法应用(详细举例讲解)具体算法应用(详细举例讲解)q该算法与其他类似算法的分析比较该算法与其他类似算法的分析比较q可能的发展方向可能的发展方向q附参考文献附参考文献2什么是机器学习什么是机器学习 【经典定义经典定义】:计算机程序如何随着经验积:计算机程序如何随着经验积累自动提高性能,系统自我改进的过程。累自动提高性能,系统自我改进的过程。或:计算机利用经验改善系统自身性能的或:计算机利用经验改善系统自身性能的行为。行为。米切
2、尔米切尔随着该领域的发展,主要做随着该领域的发展,主要做 学习现象学习现象语言、文字的认知识别语言、文字的认知识别图像、场景、自然物体的认知识别图像、场景、自然物体的认知识别规则规则(eg 下雨天要带雨伞)下雨天要带雨伞)复杂的推理、判断能力(智能)复杂的推理、判断能力(智能)好人与坏人?好人与坏人?好猫与坏猫?好猫与坏猫?数据数据知识知识认知认知推理推理决策决策识别识别学习学习 使得计算机具备和人类一样的学习能力使得计算机具备和人类一样的学习能力决策决策推理推理认知认知识别识别 等智能等智能 给定数据(样本、实例)和一定的学习规则,给定数据(样本、实例)和一定的学习规则,从数据中获取知识的能
3、力从数据中获取知识的能力q自然智慧的伟大与奥妙自然智慧的伟大与奥妙举例:婴儿的认知能力(声音、人脸、汽车举例:婴儿的认知能力(声音、人脸、汽车)重要的二个特点重要的二个特点:容错性,推广能力(举一反三)容错性,推广能力(举一反三)q机器智能:希望用机器实现部分智能机器智能:希望用机器实现部分智能q基于数据的机器学习问题(引自清华张学工教基于数据的机器学习问题(引自清华张学工教授)授)根据已知样本估计数据之间的依赖关系,从而对未根据已知样本估计数据之间的依赖关系,从而对未知或无法测量的数据进行预测和判断知或无法测量的数据进行预测和判断关键:推广能力关键:推广能力q中科院王珏研究员给出的定义:中科
4、院王珏研究员给出的定义:令令W是给定世界的有限或无限所有观测对象的集是给定世界的有限或无限所有观测对象的集合,由于我们的观测能力有限,我们只能获得这合,由于我们的观测能力有限,我们只能获得这个世界的一个子集个世界的一个子集 ,称为样本集。机器学,称为样本集。机器学习就是根据这个样本集,推算这个世界习就是根据这个样本集,推算这个世界W的模型的模型,使它对这个世界(尽可能地)为真。,使它对这个世界(尽可能地)为真。q三个重要的理论问题:三个重要的理论问题:一致:一致:W与与Q有相同的性质。有相同的性质。eg.i.i.d划分:设样本定义于划分:设样本定义于d维空间,要寻找在这个空维空间,要寻找在这个
5、空间上的决策分界面间上的决策分界面泛化(推广能力):对未知样本的判断能力泛化(推广能力):对未知样本的判断能力WQ qLearning=Improving with experience at some taskImprove over task TWith respect to performance measurement PBased on experience EqExample:中国象棋中国象棋任务任务T:下中国象棋:下中国象棋 性能目标性能目标P:比赛中击败对手(的百分比):比赛中击败对手(的百分比)训练经验训练经验E:和自己进行对弈,或者看棋谱:和自己进行对弈,或者看棋谱Ref:
6、机器学习机器学习(曾华军等译)(曾华军等译)引用自引用自CMU Dr.Eric Xing的的Lecture Notes机器学习的研究意义机器学习的研究意义qScience2001年论文:年论文:每个科学领域的科学过程都有它自己的特点,但是,每个科学领域的科学过程都有它自己的特点,但是,。对这个抽象的科。对这个抽象的科学过程的每一个环节,机器学习都有相应的发展,我们相学过程的每一个环节,机器学习都有相应的发展,我们相信它将导致科学方法中从假设生成、模型构造到决定性实信它将导致科学方法中从假设生成、模型构造到决定性实验这些所有环节的合适的、部分的自动化。当前机器学习验这些所有环节的合适的、部分的自
7、动化。当前机器学习研究在一些基本论题上取得令人印象深刻的进展,我们预研究在一些基本论题上取得令人印象深刻的进展,我们预期机器学习研究在今后若干年中将有稳定的进展!期机器学习研究在今后若干年中将有稳定的进展!”在稍早前,在稍早前,2000年年Science还发表了另外还发表了另外3篇篇ML方面方面的论文的论文“The Manifold Way of Perceptron”,“A global geometric framework for nonlinear dimensionality reduction”,”Nonlinear dimensionality reduction by loca
8、lly”Mjolsness,D DeCoste,Machine Learning for Science:State of the Art and Future Prospects-Science,2001:2051-2055.受到令人惊讶受到令人惊讶的重视!的重视!摘自南京大学周志华教授摘自南京大学周志华教授生物信息学计算金融学分子生物学行星地质学工业过程控制机器人遥感信息处理信息安全机 器 学 习重要性:例子网络安全入侵检测:是否是入侵?是何种入侵?如何检测?历史数据:以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类这是一个典型的预测型机器学习问题常用技术:神经网络 决
9、策树支持向量机 k近邻序列分析 聚类 摘自南京大学周志华教授摘自南京大学周志华教授重要性:例子生物信息学常用技术:神经网络 支持向量机隐马尔可夫模型k近邻 决策树序列分析 聚类 重要性:例子数据驱动控制q人工智能:人工智能:学习的概念符号表示学习的概念符号表示qBayes 方法方法q统计学:统计学:统计学习理论统计学习理论(SLT)q计算复杂性理论计算复杂性理论q控制论控制论q信息论:最小描述长度信息论:最小描述长度q哲学:哲学:“Occams Razor原则原则”,“没有免费午餐没有免费午餐”q心理学和神经生物学:心理学和神经生物学:Neural Networks(神经网络)(神经网络)q符
10、号机器学习符号机器学习Eg.决策树,决策树,ID3,q计算学习理论(统计学习理论)计算学习理论(统计学习理论)PAC,SVMq监督学习,非监督学习,半监督学习监督学习,非监督学习,半监督学习q集群机器学习集群机器学习Ensemble Learning,Boostingq流行(流行(Manifold)学习)学习q强化学习强化学习qRanking学习学习q聚类学习聚类学习qhttp:/en.wikipedia.org/wiki/Machine_Learning机器学习简要发展历史回顾机器学习简要发展历史回顾q1950s:神经科学的理论基础:神经科学的理论基础James关于神经元是相互连接的发现关于
11、神经元是相互连接的发现McCullon&Pitts的神经元模型的神经元模型Hebb 学习律(相互连接强弱度的变换规则)学习律(相互连接强弱度的变换规则)q1960s:感知器(:感知器(Perceptron)时代)时代1957年年Rosenblatt首次提出首次提出q1969年:年:Perceptron出版,提出著名出版,提出著名的的XOR问题问题q1970s:符号主义,逻辑推理:符号主义,逻辑推理q1980s:MLP+BP算法成功解决算法成功解决XOR问题问题,从此进入神经网络时代(连接主义),从此进入神经网络时代(连接主义)q1960s-1970s:统计学习理论创立统计学习理论创立VC维的基
12、本概念维的基本概念结构风险最小化原则结构风险最小化原则概率空间的大数定律概率空间的大数定律q1990s:统计学习理论的发展及完善:统计学习理论的发展及完善典型代表:典型代表:SVM(Vapnik,Bell实验室)实验室)结构风险最小化结构风险最小化最小描述长度原则最小描述长度原则小样本问题小样本问题核函数、核空间变化核函数、核空间变化PAC理论下的弱可学习理论的建立理论下的弱可学习理论的建立支持向量机支持向量机q2000s:各种机器学习理论及算法得以充分发展:各种机器学习理论及算法得以充分发展符号机器学习符号机器学习计算机器学习(统计学习理论,典型例子:计算机器学习(统计学习理论,典型例子:S
13、VM)集群机器学习(典型代表:集群机器学习(典型代表:Boosting)强化机器学习强化机器学习流行机器学习流行机器学习监督学习,非监督学习监督学习,非监督学习半监督学习、半监督学习、.q机器实际上是一个应用驱动的学科,其根本的驱动力机器实际上是一个应用驱动的学科,其根本的驱动力是:是:“更多、更好地解决实际问题更多、更好地解决实际问题”q由于近由于近20年的飞速发展,机器学习已经具备了一定的年的飞速发展,机器学习已经具备了一定的解决实际问题的能力,似乎逐渐开始成为一种基础性解决实际问题的能力,似乎逐渐开始成为一种基础性、透明化的、透明化的“支持技术、服务技术支持技术、服务技术”基础性:在众多
14、的学科领域都得以应用(基础性:在众多的学科领域都得以应用(“无所不在无所不在”)透明化:用户看不见机器学习,看见的是防火墙、生物信透明化:用户看不见机器学习,看见的是防火墙、生物信息、搜索引擎;(息、搜索引擎;(“无所不在无所不在”)“机器更好用了机器更好用了”(正如正如CALO的一些描述:的一些描述:“you wont leave home without it”;”embodied as a software environment that transcends workstations,PDAs,cell phones,”)q机器学习的主要策略与基本结构机器学习的主要策略与基本结构 机
15、器学习的主要策略机器学习的主要策略 机器学习系统的基本结构机器学习系统的基本结构 q我们以西蒙的学习定义做为出发点,建立起下图我们以西蒙的学习定义做为出发点,建立起下图1.1所示的简单的学习模型,然后通过对这个简单所示的简单的学习模型,然后通过对这个简单模型的讨论,总结出设计学习系统应当注意的某模型的讨论,总结出设计学习系统应当注意的某些总的原则。些总的原则。q有监督的学习方法有监督的学习方法在样本标签已知的情况下,可以统计出各类训练样本不在样本标签已知的情况下,可以统计出各类训练样本不同的描述量,如其概率分布,或在特征空间分布的区域同的描述量,如其概率分布,或在特征空间分布的区域等,利用这些
16、参数进行分类器设计,称为有监督的学习等,利用这些参数进行分类器设计,称为有监督的学习方法。方法。q无监督学习无监督学习然而在实际应用中,不少情况下无法预先知道样本的标然而在实际应用中,不少情况下无法预先知道样本的标签,也就是说没有训练样本签,也就是说没有训练样本因而只能从原先没有样本标签的样本集开始进行分类器因而只能从原先没有样本标签的样本集开始进行分类器设计,这就是通常说的无监督学习方法。设计,这就是通常说的无监督学习方法。q对一个具体问题来说有监督与无监督的作法是不相对一个具体问题来说有监督与无监督的作法是不相同的同的x1x2x1x2http:/machine- AAAI Machine
17、Learning Topics:www.aaai.org/AITopics/html/machine.html-Support Vector Machines:http:/www.support-vector-machines.org/index.html qhttp:/www.cs.cmu.edu/tom/10701_sp11/lectures.shtmlMachine Learning(Spring 2011)CMUTom MitchellVideo Lecture&SlidesqMachine Learning Resources:http:/ Weka:Data Mining(ML)s
18、oftware in Java:http:/www.cs.waikato.ac.nz/ml/weka/LibSVM-A Library for Support Vector Machines:www.csie.ntu.edu.tw/cjlin/libsvm MLC+:http:/ library of C+classes for supervised machine learning UCI-Machine Learning information,software and databases:http:/archive.ics.uci.edu/ml/qKernal Machines:http
19、:/www.kernel-machines.org/qhttp:/mloss.org/software/:Machine Learning Open Source Softwareqhttp:/www3.ntu.edu.sg/home/aswduch/ai-ml.html q数据挖掘研究院:数据挖掘研究院:http:/ 概念学习和一般到特殊序概念学习和一般到特殊序简介简介q许多机器学习涉及到从特殊训练样例中得到一般概念。许多机器学习涉及到从特殊训练样例中得到一般概念。,可被看作一个对象或事件集合,它是从更大的,可被看作一个对象或事件集合,它是从更大的集合中选取的子集,或在这个较大集合中定义的布
20、尔集合中选取的子集,或在这个较大集合中定义的布尔函数。函数。的定义的定义给定一个样例集合以及每个样例是否属于某个概念的标注,给定一个样例集合以及每个样例是否属于某个概念的标注,怎样推断出该怎样推断出该。又称从样例中逼近布尔函。又称从样例中逼近布尔函数。数。概念学习是指从有关某个布尔函数的输入输出训练样例中概念学习是指从有关某个布尔函数的输入输出训练样例中推断出该布尔函数。推断出该布尔函数。概念学习任务概念学习任务q一个例子一个例子目标概念目标概念Aldo进行水上运动的日子,表示为布尔函数进行水上运动的日子,表示为布尔函数EnjoySport任务目的任务目的基于某天的各属性,预测基于某天的各属性
21、,预测EnjoySport的值的值给定一个样例集给定一个样例集D每个样例表示为每个样例表示为6个属性的集合个属性的集合概念学习任务(概念学习任务(2)YesChangeCoolStrongHighWarmSunny4NoChangeWarmStrongHighColdRainy3YesSameWarmStrongHighWarmSunny2YesSameWarmStrongNormalWarmSunny1EnjoySportForecastWaterWindHumidityAirTempSkyExample表表2-1 目标概念目标概念EnjoySport的训练样例的训练样例概念学习任务(概念学
22、习任务(3)q表示表示的形式(目标函数的表示)的形式(目标函数的表示)一个简单的形式,一个简单的形式,的各属性约束的的各属性约束的令每个假设为令每个假设为6个约束(或变量)的向量,每个约个约束(或变量)的向量,每个约束对应一个属性可取值范围,为束对应一个属性可取值范围,为?任意本属性可接受的值?任意本属性可接受的值明确指定的属性值明确指定的属性值 不接受任何值不接受任何值假设的例子假设的例子/所有的样例都是正例所有的样例都是正例/所有的样例都是反例所有的样例都是反例概念学习任务(概念学习任务(4)q已知已知实例集实例集X每个实例每个实例x由由6个属性描述,每个属性的取值范围已确定个属性描述,每
23、个属性的取值范围已确定假设集假设集H每个假设每个假设h描述为描述为6个属性的取值约束的合取个属性的取值约束的合取目标概念目标概念c一个布尔函数,变量为实例一个布尔函数,变量为实例训练样例集训练样例集D目标函数(或目标概念)的正例和反例目标函数(或目标概念)的正例和反例q求解求解H中的一假设中的一假设h,使对于,使对于X中任意中任意x,h(x)=c(x)术语定义术语定义q实例实例xq实例集实例集Xq概念概念q目标概念目标概念cq训练样例训练样例xq训练样例集训练样例集Dq正例,目标概念成员正例,目标概念成员q反例,非目标概念成员反例,非目标概念成员q假设假设hq假设集假设集H就是寻找一个假设就是
24、寻找一个假设h,使得对所有的,使得对所有的h,都有,都有h(x)=c(x)学习假设学习假设q什么是归纳学习?什么是归纳学习?从特殊的样例得到普遍的规律(从特殊的样例得到普遍的规律()q归纳归纳只能保证输出的假设能与训练样例相拟合只能保证输出的假设能与训练样例相拟合q归纳假设的一个基本假定归纳假设的一个基本假定对于未见实例最好的假设就是对于未见实例最好的假设就是q归纳学习假设归纳学习假设任一假设如果在足够大的训练样例集中很好地逼近目标任一假设如果在足够大的训练样例集中很好地逼近目标函数,它也能在未见实例中很好地逼近目标函数。函数,它也能在未见实例中很好地逼近目标函数。作为作为的概念学习的概念学习
25、q概念学习可以看作一个概念学习可以看作一个搜索范围:假设的表示所隐含定义的整个空间搜索范围:假设的表示所隐含定义的整个空间搜索目标:能够最好地拟合训练样例的假设搜索目标:能够最好地拟合训练样例的假设q当假设的表示形式选定后,那么就隐含地为学习算当假设的表示形式选定后,那么就隐含地为学习算法确定了所有假设的空间法确定了所有假设的空间例子例子EnjoySport的假设空间,如果属性的假设空间,如果属性Sky有有3种可能种可能的值,而的值,而AirTemp、Humidity、Wind、Water和和 Forecast都只有两种可能值。都只有两种可能值。实例空间X:包含322222=96种不同的实例假
展开阅读全文