人工智能课件第8章支持向量机-2.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工智能课件第8章支持向量机-2.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 课件 支持 向量 _2
- 资源描述:
-
1、人工智能课件第8章-支持向量机 n90年代,一个较完善的理论体系统计学习理论(Statistical Learning Theory,简称SLT)的实现和由于神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,比如如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善,在解决小样本、非线性及高维模式识别问题中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中,从此迅速的发展起来,现在已经在在模式识别、回归分析、函数估计、时间序列预测等领域都得到了长足的发展,并被广泛应用于文本识别、手写字体识别、人脸图像识别、基因分类、时间序列预测等。节次安排
2、n8.1 概述概述n8.2 统计学习理论统计学习理论 n8.3 支持向量机(支持向量机(SVM)n8.4 核函数核函数n8.5 SVM的算法及多类的算法及多类SVMn8.6 SVM的应用现状的应用现状n8.7 小结小结8.1 概述概述n基于数据的机器学习,需要从观测数据(样本)出发寻找数据中的模式和数据见的函数依赖规律,利用这些模式和函数依赖对未来数据或无法观测的数据进行分类、识别和预测。其实现方法大致可以分为三种:n第一种方法是经典的(参数)统计估计算法,在这种方法中,参数的相关形式是已知的,训练样本用来估计参数的值。这种方法有很大的局限性,首先,它需要已知样本分布形式,其次传统统计学研究的
3、是样本数目趋于无穷大时的渐进理论,现有学习方法也多是基于此假设,但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。n第二种方法是人工神经网络(ANN),这种方法利用已知样本建立非线性模型,克服了传统参数估计方法的困难,在过去的十几年中,神经网络受各个领域学者的广泛研究,技术上得到很大的发展,提出了许多神经网络结构,其中常用的有多层感知器(MLP)、径向基函数网络(RBF)、Hopfield网络等,也被成功地用来解决许多实际问题,但是现在的神经网络技术研究理论基石不足,有较大的经验成分,在技术上仍存在一些不易解决的问题。n为了克服以上所说的那些难题,Va
4、pnik提出了一种新的神经网络支持向量机(SVM),也是所说的第三种方法统计学习理论,SVM是统计学习理论中最年轻的内容,也是最实用的部分,它目前已经成为神经网络和机器学习的研究热点之一,并已经得到很好的研究成果。支持向量机的基本思想支持向量机的基本思想n训练数据集非线性地映射到一个高维特征空间,这个非线性映射的目的是把在输入空间中的线性不可分数据集映射到高维特征空间后变为是线性可分的数据集,随后在特征空间建立一个具有最大隔离距离的最优分隔超平面,这也相当于在输入空间产生一个最优非线性决策边界,如下图所示:n存在多个分类超平面可以把两个类分离开来,但是只有一个是最优分类超平面,它与两个类之间最
5、近向量的距离最大。n支持向量机的目的就是要把这个最优的分类超平面找出来。8.2 统计学习理论统计学习理论n统计学习理论诞生于20世纪6070年代,其主要创立者是Vladimir N.Vapnik,到90年代中期发展到比较成熟并受到世界机器学习界的广泛重视。n统计学习理论是一种专门研究小样本情况下机器学习规律的理论。该理论针对小样本统计问题建立了一套新的理论体系,在这种体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。8.2.1 学习问题的表示学习问题的表示n样本学习的一般模型n产生器(G):产生随机向量,它们是从固定但未知的概率分布函数F(x)中独立抽
6、取的。n训练器(S):对每个输入向量x返回一个输出值y,产生输出的根据是同样固定但未知的条件分布函数F(y|x)。n学习机器(LM):它能够实现一定的函数集,其中是参数集合。n在学习过程中,学习机器LM观察数据对(x,y)。在训练之后,学习机器必须对任意输入x,使之接近训练器的响应y。8.2.2 期望风险和经验风险期望风险和经验风险n给定输入x下训练器响应y与学习机器给出的响应 之间的损失记作n 就是风险泛函,即预测的期望(实际)风险。n 称为经验风险。),(axf),(,(axfyL),(),(,()(yxdFaxfyLaRliiiempaxfyLlaR1),(1)(8.2.3 学习过程一致
7、性的条件学习过程一致性的条件n学习过程一致性(Consistency)是指训练样本无限时,经验风险的最优值收敛于真实风险最优值(期望风险值)。其严格定义如下:n定义定义 8.1 设f(x,a)是使经验风险最小化的函数,如果下面两个序列概率收敛于同一极限,即 及 则称ERM原则(或方法)对函数集 和概率分布函数F(x,y)一致的。如果对函数集的任意非空子集 ,都有 则称ERM原则(或方法)对函数集 和概率分布函数F(x,y)非平凡一致的。)(inf)(aRaRall)(inf)(aRaRallemp aaxf),(),(),(cc)(inf)(inf)(aRaRcallempa aaxf),(n
8、非平凡一致性对预测函数集中的所有函数都必须满足经验风险一致地收敛于真实风险。n定理定理 8.1 对于有界损失函数,ERM原则一致性的充分必要条件是:经验风险 在如下意义下一致收敛于实际风险 :这种一致收敛被称作单边收敛;这种一致收敛被称作双边收敛。)(aRemp)(wR0,0)()(sup(limaRaRPempl0,0|)()(|suplimaRaRPempl7.2.4 VC维理论维理论 n模式识别方法中VC维的直观定义是:对一个指示函数集,如果存在h个样本能够被函数集中的函数按所有可能的 种形式分开,则称函数集能够把h个样本打散,函数集的VC维是无穷大。n有界实函数的VC维可以通过用一定的
9、阀值将它转化成指示函数来定义。平面中直线的VC维等于3,因为它们能打散3个向量而不能打散4个。h2n定理定理8.2 对于 中的m个点集,选择任何一个点作为原点,m个点能被超平面打散当且仅当剩余点的位置向量是线形独立的。n推论推论 中有向超平面集的VC维是n+1,因为总能从n+1个点中选择其中一个作为原点,剩余n个点的位置向量是线形独立的,但不能选择n+2个这样的点(因为在 中没有n+1是线形独立的)。nVC维反映了函数集的学习能力,VC维越大则学习机器越复杂(容量越大),目前尚没有通用的关于任意函数集VC维计算的理论,只对一些特殊的函数集知道其VC维。nR nRnR7.2.5 推广性的界推广性
10、的界n定理定理8.3 所有函数集的生长函数或者与样本数成正比,即 或者以下列样本数的某个对数函数为上界,即 其中,h是一个整数,它是从生长函数满足 到满足 的转折点,即当h=1时,有 而 。n由定理7.3可以看出,VC维对于一个指示函数集,如果其生长函数是线性的,则它的VC维为无穷大;而如果生长函数以参数为h的对数函数为界,则函数集的VC维是有界的且等于h。2ln)(llGhlhhlG),11(ln)(2ln)(llGhlhhlG),11(ln)(2ln)(hhG2ln)1()1(hhGn定理定理8.4 对于前面定义的两类分类问题,对指示函数集中的所有函数(当然也包括是经验风险最小的函数),经
11、验风险和实际风险之间至少以 概率满足如下关系:其中h为函数集 的VC维,为训练集的规模。右侧第二项通常称为VC置信度。n由上式可以看出,在学习系统VC维与训练集规模的比值很大时,即使经验风险较小,也无法保证期望风险较小,即无法保证学习系统具有较好的泛化能力。因此,要获得一个泛化性能较好的学习系统,就需要在学习系统的VC维与训练集规模之间达成一定的均衡。lhlhfRfRemp4ln)12(ln)()(1aaxf),(lhlhfRfRemp4ln)12(ln)()(ln由于定理8.4所给出的是经验风险和实际风险之间误差的上界,它们反映了根据经验风险最小化原则得到的学习机器的推广能力,因此称作推广性
12、的界。这一结论从理论上说明了学习机器的实际风险是有两部分组成的:一是经验风险(训练误差),另一部分称作置信范围,它和学习机器的VC维及训练样本数有关。可以简单地表示为:n它表明,在有限的训练样本下,学习机器VC维越高(复杂度越高),则置信范围越大,导致真实风险与经验风险之间可能的差别越大。机器学习过程不但要经验风险最小,还要使VC维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性。)()()(nhfRfRemp8.2.6 结构风险最小化结构风险最小化nERM原则在样本有限时是不合理的,需要同时最小化经验风险和置信范围。其实,在传统方法中,选择学习模型和算法的过程就是调整
13、置信范围的过程。比如在神经网络中,需要根据问题和样本的具体情况选择不同的网络结构维(对应不同的VC),然后进行经验风险最小化。在模式识别中选定了一种分类器形式就确定了学习机器的VC维。n因为缺乏理论指导,这种选择只能依赖先验知识和经验,造成了神经网络等方法对使用者的“技巧”的过分依赖。n统计学习理论提出了一种新的策略来解决这个问题。n首先把函数集 分解为一个函数子集序列 使各子集能够按照VC维的大小排列,即 这样在同一子集中置信范围就相同;在每一个子集中寻找最小经验风险和置信范围,取得实际风险的最小,如下图:n这种思想称作结构风险最小化(Structural Risk Minimization
14、),即SRM准则。aaxfS),(SSSSk 21 khhh21 n这种思想称作结构风险最小化(Structural Risk Minimization),即SRM准则。n实现SRM原则可以有两种思路,一是在每个子集中求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集。n显然这种方法比较费时,当子集数目很大甚至是无穷时不可行。因此有第二种思路,即设计函数集的某种结构使每个子集中都能取得最小的经验风险(如使训练误差为0)。n然后只需选择适当的子集使置信范围最小,则这个子集中经验风险最小的函数就是最优函数。支持向量机方法实际上就是这种思想的具体实现。8.3 支持向量机(支持向量机(SV
15、M)n要在学习算法中执行SRM原则,必须在一个给定的函数集中使风险最小化,这要通过控制两个因素来完成:经验风险的值和置信范围的值。在学习的历史中,人们大多采用两种方法来完成学习过程:(1)保持置信范围固定(通过选择一个适当构造的机器)并最小化经验风险。(2)保持经验风险值固定(比如等于零)并最小化置信范围。n本节我们讨论一种新的学习机器支持向量机,它采用的是第二种构造方法,下面我们严格按照SRM原则来构造这种学习机。8.3.1 线性可分支持向量机线性可分支持向量机n从理论上来讲,线性函数集只能处理线性可分的情况,我们也是从这种最简单的情况开始讨论。因为线性可分,经验风险始终为0,所以只最小化置
16、信范围即可,故问题就是对于给定的样本数据 ,在保证其经验风险为0的前提下,选择使 置信范围最小的子集。从 可以看出,样本数固定时,子集的置信范围最小,也就是子集的VC维最小,而本函数集的子集的VC维只与权值 有关,并且是 的增函数,所以在几何上,这个问题就是用权值最小的超平面把属于两个不同类 的样本集 分开,这个超平面叫做最优超平面,如下图:),(,),(11llyxyx )()()(hlaRaRemp)()()(hlaRaRemp|w|w1,1y),(,),(11llyxyx n最优超平面是以最大间隔将两类数据分开的平面,这个最大间隔意味着推广性最好。n支持向量机问题可以等价为求解下面的二次
展开阅读全文