支持向量机浙大课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《支持向量机浙大课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 支持 向量 浙大 课件
- 资源描述:
-
1、支持向量机浙大目录目录n概述n统计学习理论中的基本概念n统计学习理论的发展简况n统计学习理论的基本内容n支持向量机概述n研究现状n参考文献8.1.1 SLT&SVM的地位和作用的地位和作用n是统计学习方法的优秀代表n有严密的数学依据,得到了严格的数学证明n有力反驳 “复杂的理论是没有用的,有用的是简单的算法”等错误观点n充分表明 “没有什么比一个好的理论更实用没有什么比一个好的理论更实用了了”等基本的科学原则8.1 概述概述8.1.4 SLT&SVM与传统方法的区别要较好地实现传统方法传统方法,需要人工选择(构造)一些数目相对较少的“巧妙的特征”SVM方法方法则是自动地选择(构造)一些数目较少
2、的“巧妙的特征”在实际应用中,可通过构造两层(或多层)构造两层(或多层)SVM来选择“巧妙的特征”SLT&SVM集以下模型于一身:结构风险最小化(SRM)模型数据压缩模型构造复合特征的一个通用模型 在希尔伯特空间中的内积回旋可以 看作是构造特征的一种标准途径。对实际数据的一种模型 一个小的支持向量集合可能足以对不同的机器代表整个训练集。8.2 SLT中的基本概念中的基本概念n统计方法统计方法 从观测自然现象或者专门安排的实验所得到的数据去推断该事务可能的规律性。n统计学习理论统计学习理论 在研究小样本小样本统计估计和预测的过程中发展起来的一种新兴理论。【注意注意】:这里所说的“小样本”是相对于
3、无穷样本而言的,故只要样本数不是无穷,都可称为小样本,更严格地说,应该称为“有限样本有限样本”。统计学习理论中的基本概念(续)n机器学习机器学习 主要研究从采集样本出发得出目前尚不能通过原理分析得到的规律,并利用这些规律对未来数据或无法观测的数据进行预测。n模式识别模式识别 对表征事务或现象的各种形式(数值、文字及逻辑关系等)信息进行处理和分析,以对事务或现象进行描述、辨认、分类和解释的过程。n统计学习理论统计学习理论 一种研究有限样本估计和预测的数学理论8.3 统计学习理论的发展简况统计学习理论的发展简况n学习过程的数学研究F.Rosenblatt于1958,1962年把感知器作为一个学习机
4、器模型n统计学习理论的开始Novikoff(1962)证明了关于感知器的第一个定理n解决不适定问题的正则化原则的发现Tikhonov(1963),Ivanov(1962),Phillips(1962)nVanik和Chervonenkis(1968)提出了VC熵熵和VC维维的概念提出了统计学习理论的核心概念得到了关于收敛速度的非渐进界的主要结论SLTSLT的发展简况的发展简况(续续)Vapnik和Chervonenkis(1974)提出了结构风结构风险最小化(险最小化(SRM)归纳原则归纳原则。Vapnik和Chervonenkis(1989)发现了经验风险最小化归纳原则和最大似然方法一致性的
5、充分必要条件,完成了对经验风险最小化归纳推理的分析。90年代中期,有限样本情况下的机器学习理论研究逐渐成熟起来,形成了较完善的理论体系统计学习理论(Statistical Learning Theory,简称SLT)8.4 统计学习理论的基本内容统计学习理论的基本内容n机器学习的基本问题n统计学习理论的核心内容8.4.1 机器学习的基本问题机器学习的基本问题n机器学习问题的表示GLMSX Xyy学习问题的表示学习问题的表示n产生器(G),产生随机向量x属于Rn,它们是从固定但未知的概率分布函数F(x)中独立抽取的。n训练器(S),对每个输入向量x返回一个输出值y,产生输出的根据是同样固定但未知
6、的条件分布函数 F(y|x)。n学习机器(LM),它能够实现一定的函数集f(x,a),a属于A,其中A是参数集合。8.4.2 机器学习的基本问题机器学习的基本问题n机器学习就是从给定的函数集f(x x,)(是参数)中,选择出能够最好地逼近训练器响应的函数。n机器学习的目的可以形式化地表示为:根据n个独立同分布的观测样本 ,在一组函数 中求出一个最优函数 对训练器的响应进行估计,使期望风险最小 其中 是未知的,对于不同类型的机器学习问题有不同形式的损失函数。1122(,),(,),(,)nnx yxyxy(,)f x0(,)f x(,)P x y()(,(,)(,)RL y f xdP x y三
7、类基本的机器学习问题三类基本的机器学习问题n模式识别n函数逼近(回归估计)n概率密度估计【补充说明】:用有限数量信息解决问题的基基本原则本原则 在解决一个给定问题时,要设法在解决一个给定问题时,要设法避免把解决一个更为一般的问题作为其中间避免把解决一个更为一般的问题作为其中间步骤步骤。上述原则意味着,当解决模式识别或回归估计问题时,必须设法去必须设法去“直接直接”寻找待求的函数寻找待求的函数,而不是不是首先估计密度,然后用估计的密度来构造待求的函数。密度估计密度估计是统计学中的一个全能问题,即知道了密度就可以解决各种问题。一般地,估计密度是一个不适定问题(ill-posed problem),
8、需要大量观测才能较好地解决。实际上,需要解决的问题(如决策规则估计或回归估计)是很特殊的,通常只需要有某一合理数通常只需要有某一合理数量的观测就可以解决量的观测就可以解决。经验风险最小化原则经验风险最小化原则n对于未知的概率分布,最小化风险函数,只有样本的信息可以利用,这导致了定义的期望风险是无法直接计算和最小化的。n根据概率论中大数定理,可用算术平均代替数据期望,于是定义了经验风险 来逼近期望风险。n经验风险最小化(ERM)原则:使用对参数w求经验风险 的最小值代替求期望风险 的最小值。11()(,(,)nempiiiRwL yf x wn()empRw()R w经验风险最小化经验风险最小化
9、n从期望风险最小化到经验风险最小化没有可靠的依据,只是直观上合理的想当然。期望风险和经验风险都是w的函数,概率论中的大数定理只说明了当样本趋于无穷多时经验风险将在概率意义上趋近于期望风险,并没有保证两个风险的w是同一点,更不能保证经验风险能够趋近于期望风险。即使有办法使这些条件在样本数无穷大时得到保证,也无法认定在这些前提下得到的经验风险最小化方法在样本数有限时仍能得到好的结果。复杂性与推广能力复杂性与推广能力n学习机器对未来输出进行正确预测的能力称作推推广能力(广能力(也称为“泛化能力泛化能力”)。)。n在某些情况下,训练误差过小反而导致推广能力的下降,这就是过学习过学习问题。n神经网络的过
10、学习问题是经验风险最小化原则失败的一个典型例子。用三角函数拟合任意点用三角函数拟合任意点学习的示例学习的示例复杂性与推广能力(续)复杂性与推广能力(续)n在有限样本情况下,经验风险最小并不一定意味着期望风险最小;学习机器的复杂性不但与所研究的系统有关,而且要和有限的学习样本相适应;学习精度和推广性之间似乎是一对不可调和的学习精度和推广性之间似乎是一对不可调和的矛盾矛盾,采用复杂的学习机器虽然容易使得学习采用复杂的学习机器虽然容易使得学习误差更小误差更小,却往往丧失推广性;却往往丧失推广性;传统的解决办法(例如:采用正则化、模型选择、噪声干扰等方法以控制学习机器的复杂度)缺乏坚实的理论基础。8.
11、5 统计学习理论的核心内容统计学习理论的核心内容nSLT被认为是目前针对有限样本统计估计和预测学习的最佳理论,它从理论上较为系统地研究了经验风险最小化原则成立的条件、有限样本下经验风险与期望风险的关系及如何利用这些理论找到新的学习原则和方法等问题。nSLT的主要内容包括:基于经验风险原则的统计学习过程的一致性理论学习过程收敛速度的非渐进理论控制学习过程的推广能力的理论构造学习算法的理论VC维维(函数的多样性函数的多样性)n为了研究经验风险最小化函数集的学习一致收敛速度和推广性,SLT定义了一些指标来衡量函数集的性能,其中最重要的就是VC维(Vapnik-Chervonenkis Dimensi
12、on)。nVC维维:对于一个指示函数(即只有0和1两种取值的函数)集,如果存在h个样本能够被函数集里的函数按照所有可能的2h种形式分开,则称函数集能够把h个样本打散,函数集的VC维就是能够打散的最大样本数目。n如果对任意的样本数,总有函数能打散它们,则函数集的VC维就是无穷大。VC维(续)维(续)n一般而言,VC维越大,学习能力就越强,但学习机器也越复杂。n目前还没有通用的关于计算任意函数集的VC维的理论,只有对一些特殊函数集的VC维可以准确知道。nN维实数空间中线性分类器和线性实函数的VC维是n+1。nSin(ax)的VC维为无穷大。nVCVC维(续)维(续)Open problem:对于给
13、定的学习函数集,如何用理论或实验的方法计算其VC维是当前统计学习理论研究中有待解决的一个难点问题。三个里程碑定理三个里程碑定理()()(VC)lim0()lim0()lim0 xannxxH nnHnnG nn收敛的充分 必要 条件熵快收敛速度的充分条件 与概率测度无关的快收敛充要条件推广性的界nSLT系统地研究了经验风险和实际风险之间的关系,也即推广性的界。n根据SLT中关于函数集推广性界的理论,对于指示函数集中所有的函数,经验风险 和实际风险 之间至少以概率 满足如下关系:其中,h是函数集的VC维,n是样本数。()empRw()R w1(ln(2/)1)ln(/4)()()emphn hR
展开阅读全文