机器学习导论-第4章支持向量机.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《机器学习导论-第4章支持向量机.ppt》由用户(最好的沉淀)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 机器学习导论-第4章 支持向量机 机器 学习 导论 支持 向量
- 资源描述:
-
1、第第4章章 支持向量机支持向量机n了解经验风险最小化和结构风险最小化的含义以及它们之间了解经验风险最小化和结构风险最小化的含义以及它们之间的区别。的区别。n理解理解“支持向量支持向量”的概念以及最大化间隔的基本思想的概念以及最大化间隔的基本思想。n掌握支持向量机(掌握支持向量机(SVM)的基本原理。)的基本原理。n熟悉核函数的作用以及核方法的原理。熟悉核函数的作用以及核方法的原理。n熟悉支持向量机(熟悉支持向量机(SVM)的特点及应用场合。)的特点及应用场合。本章学习目标本章学习目标n4.1 统计学习理论基础统计学习理论基础n4.2 支持向量机的基本原理和特点支持向量机的基本原理和特点n4.3
2、 线性线性SVMn4.4 基于核函数的非线性基于核函数的非线性SVMn4.5 多分类多分类SVMn4.6 支持向量机的训练支持向量机的训练第第4章章 支持支持向量向量机机n机器学习机器学习 n主要研究从采集样本出发得出目前尚不能通过原理分主要研究从采集样本出发得出目前尚不能通过原理分析得到的规律,并利用这些规律对未来数据或无法观析得到的规律,并利用这些规律对未来数据或无法观测的数据进行预测测的数据进行预测。n模式识别模式识别 n对表征事务或现象的各种形式对表征事务或现象的各种形式(数值、文字及逻辑关系数值、文字及逻辑关系等等)信息进行处理和分析,以对事务或现象进行描述、信息进行处理和分析,以对
3、事务或现象进行描述、辨认、分类和解释的过程辨认、分类和解释的过程。4.1 统计学习理论统计学习理论基础基础n传统的机器学习理论基础传统的机器学习理论基础统计学统计学n缺点:缺点:统计学研究的是样本数目趋于无穷大时的渐近理论统计学研究的是样本数目趋于无穷大时的渐近理论n实际问题:实际问题:样本有限(小样本)样本有限(小样本)n统计学习理论统计学习理论n对对小样本小样本统计估计和预测学习的最佳理论统计估计和预测学习的最佳理论4.1 统计学习理论统计学习理论基础基础【注意注意】:这里所说的“小样本”是相对于无穷样本而言的,故只要样本数不是无穷,都可称为小样本,更严格地说,应该称为“有限样本有限样本”
4、。n学习过程的数学研究学习过程的数学研究nF.Rosenblatt于于19581958,19621962年把感知器作为一个学习机年把感知器作为一个学习机器模型器模型n统计学习理论的开始统计学习理论的开始nNovikoff(1962)证明了关于感知器的第一个定理证明了关于感知器的第一个定理n解决不适定问题的正则化原则的发现解决不适定问题的正则化原则的发现nTikhonov(1963),Ivanov(1962),Phillips(1962)nVapnik和和Chervonenkis(1968)提出了提出了VC熵熵和和VC维维的概念的概念n提出了统计学习理论的核心概念提出了统计学习理论的核心概念n得
5、到了关于收敛速度的非渐进界的主要结论得到了关于收敛速度的非渐进界的主要结论4.1 统计学习理论统计学习理论基础基础Vapnik和和Chervonenkis(1974)提出了提出了结构风险最小化结构风险最小化(SRM)归纳原则归纳原则。Vapnik和和Chervonenkis(1989)发现了经验风险最小化发现了经验风险最小化归纳原则和最大似然方法一致性的充分必要条件,归纳原则和最大似然方法一致性的充分必要条件,完成了对经验风险最小化归纳推理的分析完成了对经验风险最小化归纳推理的分析。90年代中期,有限样本情况下的机器学习理论研究年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了较完
6、善的理论体系逐渐成熟起来,形成了较完善的理论体系统计学统计学习理论习理论(Statistical Learning Theory,简称,简称SLT)4.1 统计学习理论统计学习理论基础基础n机器学习问题机器学习问题n机器学习机器学习的的目目标标n通过有限的观测数据(通过有限的观测数据(Xi,yi)来估计输入与输出的函数关系,)来估计输入与输出的函数关系,并有一定的预测推广能力并有一定的预测推广能力4.1 统计学习理论统计学习理论基础基础n系统系统()是研究的对象,在给定是研究的对象,在给定输入输入 X下下得到一定的输出得到一定的输出,输,输出变量出变量 与输入与输入 X 之间存在一定之间存在一
7、定的依赖关系,即存在一个未知联的依赖关系,即存在一个未知联合概率合概率分布函数分布函数n待求学习机待求学习机(LM)的预测输出为的预测输出为 其中其中 是预测是预测函数函数 的广的广 义义参数集参数集n机器学习的基本问题机器学习的基本问题n机器学习就是从给定的函数集机器学习就是从给定的函数集f(xf(x,)()(是参数是参数)中,选中,选择出能够最好地逼近训练器响应的函数。择出能够最好地逼近训练器响应的函数。n机器学习的目的可以形式化地表示为:根据机器学习的目的可以形式化地表示为:根据n n个独立同分个独立同分布的观测样本布的观测样本 ,在一组函数在一组函数 中求出一个最优函数中求出一个最优函
8、数 对训练对训练器的响应进行估计,使期望风险最小器的响应进行估计,使期望风险最小 其中其中 是未知的,对于不同类型的机器学习问题有是未知的,对于不同类型的机器学习问题有不同形式的损失函数。不同形式的损失函数。1122(,),(,),(,)nnx yxyxy(,)f x0(,)f x(,)P x y()(,(,)(,)RL y f xdP x y4.1 统计学习理论统计学习理论基础基础n三类基本的机器学习问题三类基本的机器学习问题n模式识别模式识别n函数逼近(回归估计)函数逼近(回归估计)n概率密度估计概率密度估计【补充说明】:用有限数量信息解决问题的基本原则【补充说明】:用有限数量信息解决问题
9、的基本原则 在解决在解决一个给定问题时,要设法避免把解决一个更为一般的问题作为一个给定问题时,要设法避免把解决一个更为一般的问题作为其中间步骤其中间步骤。4.1 统计学习理论统计学习理论基础基础上述原则意味着,当解决模式识别或回归估计问题时,上述原则意味着,当解决模式识别或回归估计问题时,必须设法必须设法去去“直接直接”寻找待求的函数寻找待求的函数,而,而不是不是首先估计密度,然后用估计首先估计密度,然后用估计的密度来构造待求的函数。的密度来构造待求的函数。密度估计密度估计是统计学中的一个全能问题,即知道了密度就可以解决是统计学中的一个全能问题,即知道了密度就可以解决各种问题。一般地,估计密度
10、是一个不适定问题各种问题。一般地,估计密度是一个不适定问题(ill-posed problem),需要大量观测才能较好地解决。需要大量观测才能较好地解决。实际上,需要解决的问题(如决策规则估计或回归估计)是很特实际上,需要解决的问题(如决策规则估计或回归估计)是很特殊的,殊的,通常只需要有某一合理数量的观测就可以解决通常只需要有某一合理数量的观测就可以解决。4.1 统计学习理论统计学习理论基础基础nSLT被认为是目前针对被认为是目前针对有限样本有限样本统计估计和预测学习的最统计估计和预测学习的最佳理论,它从理论上较为系统地研究了经验风险最小化原佳理论,它从理论上较为系统地研究了经验风险最小化原
11、则成立的条件、有限样本下经验风险与期望风险的关系及则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题。如何利用这些理论找到新的学习原则和方法等问题。nSLT的主要内容包括的主要内容包括:n基于经验风险原则的统计学习过程的一致性理论基于经验风险原则的统计学习过程的一致性理论n学习过程收敛速度的非渐进理论学习过程收敛速度的非渐进理论n控制学习过程的推广能力的理论控制学习过程的推广能力的理论n构造学习算法的理论构造学习算法的理论4.1 统计学习理论统计学习理论基础基础n对于未知的概率分布,最小化风险函数,只有样本的信息可以利用,对于未知的概率分布,最小化风
12、险函数,只有样本的信息可以利用,这导致了定义的期望风险是无法直接计算和最小化的。这导致了定义的期望风险是无法直接计算和最小化的。n根据概率论中大数定理,可用算术平均代替数据期望,于是定义了经根据概率论中大数定理,可用算术平均代替数据期望,于是定义了经验风险验风险 来逼近期望风险。来逼近期望风险。n经验风险最小化(经验风险最小化(ERM)原则:使用对参数)原则:使用对参数 求经验风险求经验风险 的最小值代替求期望风险的最小值代替求期望风险 的最小值。的最小值。4.1.1 经验风险最小化原则经验风险最小化原则n从期望风险最小化到经验风险最小化没有可靠的依据,只是直观上合从期望风险最小化到经验风险最
13、小化没有可靠的依据,只是直观上合理的想当然。理的想当然。n期望风险和经验风险都是期望风险和经验风险都是 的函数,概率论中的大数定理只说的函数,概率论中的大数定理只说明了当样本趋于无穷多时经验风险将在概率意义上趋近于期望风明了当样本趋于无穷多时经验风险将在概率意义上趋近于期望风险,并没有保证两个风险的险,并没有保证两个风险的 是同一点,更不能保证经验风险是同一点,更不能保证经验风险能够趋近于期望风险。能够趋近于期望风险。n即使有办法使这些条件在样本数无穷大时得到保证,也无法认定即使有办法使这些条件在样本数无穷大时得到保证,也无法认定在这些前提下得到的经验风险最小化方法在这些前提下得到的经验风险最
14、小化方法在样本数有限时在样本数有限时仍能得仍能得到好的结果。到好的结果。4.1.1 经验风险最小化原则经验风险最小化原则n为了研究经验风险最小化函数集的学习一致收敛速度和推广性,为了研究经验风险最小化函数集的学习一致收敛速度和推广性,SLT定义了一些指标来衡量函数集的性能,其中最重要的就是定义了一些指标来衡量函数集的性能,其中最重要的就是VC维(维(Vapnik-Chervonenkis Dimension)。)。nVC维维:对于一个指示函数(即只有:对于一个指示函数(即只有0和和1两种取值的函数)集,两种取值的函数)集,如果存在如果存在 h 个样本能够被函数集里的函数按照所有可能的个样本能够
15、被函数集里的函数按照所有可能的 2h 种种形式分开,则称函数集能够把形式分开,则称函数集能够把 h个样本打散,函数集的个样本打散,函数集的VC维就维就是能够打散的最大样本数目。是能够打散的最大样本数目。n如果对任意的样本数,总有函数能打散它们,则函数集的如果对任意的样本数,总有函数能打散它们,则函数集的VC维维就是无穷大。就是无穷大。4.1.2 函数集的学习性能与函数集的学习性能与VC维维4.1.2 函数集的学习性能与函数集的学习性能与VC维维n一般而言,一般而言,VC维越大,学习能力就越强,但学习机器也越复杂。维越大,学习能力就越强,但学习机器也越复杂。n目前还没有通用的关于计算任意函数集的
16、目前还没有通用的关于计算任意函数集的VC维的理论,只有对一维的理论,只有对一些特殊函数集的些特殊函数集的VC维可以准确知道。维可以准确知道。nN维实数空间中线性分类器和线性实函数的维实数空间中线性分类器和线性实函数的VC维是维是 n+1。nSin(ax)的的VC维为无穷大。维为无穷大。nn对于给定的学习函数集,如何用理论或实验的方法计算对于给定的学习函数集,如何用理论或实验的方法计算其其 VC 维维是当前统计学习理论研究中有待解决的一个难点问题。是当前统计学习理论研究中有待解决的一个难点问题。4.1.2 函数集的学习性能与函数集的学习性能与VC维维n学习机器对未来输出进行正确预测的能力称作学习
17、机器对未来输出进行正确预测的能力称作泛化能力(泛化能力(也称为也称为“推广能力推广能力”)。)。n在某些情况下,训练误差过小反而导致推广能在某些情况下,训练误差过小反而导致推广能力的下降,这就是力的下降,这就是过学习过学习问题。问题。n神经网络的过学习问题是经验风险最小化原则神经网络的过学习问题是经验风险最小化原则失败的一个典型例子。失败的一个典型例子。4.1.3 模型的复杂度与泛化能力模型的复杂度与泛化能力用三角函数拟合任意点用三角函数拟合任意点4.1.3 模型的复杂度与泛化能力模型的复杂度与泛化能力学习的示例学习的示例4.1.3 模型的复杂度与泛化能力模型的复杂度与泛化能力n在有限样本情况
展开阅读全文