SVM-机器学习课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《SVM-机器学习课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SVM 机器 学习 课件
- 资源描述:
-
1、Support Vector Machine支持向量机 内容nSVM简介n线性分类器n核函数n松弛变量nLIBSVM介绍n实验SVM简介n支持向量机(Support Vector Machine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。SVM简介n支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广
2、能力(或称泛化能力)。SVM简介nVC维:所谓VC维是对函数类的一种度量,可以简单的理解为问题的复杂程度,VC维越高,一个问题就越复杂。正是因为SVM关注的是VC维,后面我们可以看到,SVM解决问题的时候,和样本的维数是无关的(甚至样本是上万维的都可以,这使得SVM很适合用来解决像文本分类这样的问题,当然,有这样的能力也因为引入了核函数)。SVM简介n结构风险最小原理:结构风险最小原理:就是追求“经验风险”与“置信风险”的和和最小。SVM简介n风险:风险:机器学习本质上就是一种对问题真实模型的逼近(我们选择一个我们认为比较好的近似模型,这个近似模型就叫做一个假设),但毫无疑问,真实模型一定是不
3、知道的。既然真实模型不知道,那么我们选择的假设与问题真实解之间究竟有多大差距,我们就没法得知。这个与问题真实解之间的误差,就叫做风险(更严格的说,误差的累积叫做风险)。SVM简介n经验风险经验风险Remp(w):我们选择了一个假设之后(更直观点说,我们得到了一个分类器以后),真实误差无从得知,但我们可以用某些可以掌握的量来逼近它。最直观的想法就是使用分类器在样本数据上的分类的结果与真实结果(因为样本是已经标注过的数据,是准确的数据)之间的差值来表示。这个差值叫做经验风险Remp(w)。SVM简介 以前的一些机器学习方法把经验风险最小化作为努力的目标,但后来发现很多分类函数能够在样本集上轻易达到
4、100%的正确率,在真实分类时却不好(即所谓的推广能力差,或泛化能力差)。此时的情况是因为选择了一个足够复杂的分类函数(它的VC维很高),能够精确的记住每一个样本,但对样本之外的数据一律分类错误。因为经验风险最小化原则适用的大前提是经验风险要确实能够逼近真实风险才行。但实际上不太可能,经验风险最小化原则只在这占很小比例的样本上做到没有误差,不能保证在更大比例的真实文本上也没有误差。SVM简介n泛化误差界:泛化误差界:为了解决刚才的问题,统计学提出了泛化误差界的概念。就是指真实风险应该由两部分内容刻画,一是经验风险经验风险,代表了分类器在给定样本上的误差;二是置信风险置信风险,代表了我们在多大程
5、度上可以信任分类器在未知样本上分类的结果。很显然,第二部分是没有办法精确计算的,因此只能给出一个估计的区间,也使得整个误差只能计算上界,而无法计算准确的值(所以叫做泛化误差界,而不叫泛化误差)。SVM简介n置信风险:置信风险:与两个量有关,一是样本数量,显然给定的样本数量越大,我们的学习结果越有可能正确,此时置信风险越小;二是分类函数的VC维,显然VC维越大,推广能力越差,置信风险会变大。SVM简介n泛化误差界的公式为:泛化误差界的公式为:R(w)Remp(w)+(n/h)公式中R(w)就是真实风险,Remp(w)表示经验风险,(n/h)表示置信风险。此时目标就从经验风险最小化变为了寻求经验风
6、险与置信风险的和最小,即结构风险最小。SVM简介n小样本:小样本:并不是说样本的绝对数量少(实际上,对任何算法来说,更多的样本几乎总是能带来更好的效果),而是说与问题的复杂度比起来,SVM算法要求的样本数是相对比较少的。SVM简介n非线性:非线性:是指SVM擅长应付样本数据线性不可分的情况,主要通过松弛变量(也叫惩罚变量)和核函数技术来实现,这一部分是SVM的核心内容,后面会详细说明。SVM简介n高维模式识别:高维模式识别:是指样本维数很高,SVM也可以应付。这主要是因为SVM 产生的分类器很简洁,用到的样本信息很少(仅仅用到那些称之为“支持向量”的样本),使得即使样本维数很高,也不会给存储和
7、计算带来大麻烦。线性分类器 n线性分类器:线性分类器:一定意义上,也可以叫做感知机,是最简单也很有效的分类器形式。在一个线性分类器中,可以看到SVM形成的思路,并接触很多SVM的核心概念。下面举例说明。线性分类器n用一个二维空间里仅有两类样本的分类问题来举例子。如图所示:C1和C2是要区分的两个类别。中间的直线就是一个分类函数,它可以将两类样本完全分开。一般的,如果一个线性函数能够将样本完全正确的分开,就称这些数据是线性可分的,否则称为非线性可分的。线性分类器n线性函数 在一维空间里就是一个点,在二维空间里就是一条直线,三维空间里就是一个平面,可以如此想象下去,如果不关注空间的维数,这种线性函
8、数还有一个统一的名称超平面(Hyper Plane)。线性分类器n例如我们有一个线性函数 g(x)=wx+b 我们可以取阈值为0,这样当有一个样本xi需要判别的时候,我们就看g(xi)的值。若g(xi)0,就判别为类别C1,若g(xi)0,而yi也大于0;若不属于该类别的话,那么wxi+b0,而yi也小于0,这意味着yi(wxi+b)总是大于0的,而且它的值就等于|wxi+b|,也就是|g(xi)|。线性分类器 现在把w和b进行归一化处理,即用w/|w|和b/|w|分别代替原来的w和b,那么间隔就可以写成:这就是解析几何中点xi到直线g(x)=0的距离公式,也就是到超平面g(x)=0的距离。线
9、性分类器|w|叫做向量w的范数,范数是对向量长度的一种度量。我们常说的向量长度其实指的是它的2-范数,范数最一般的表示形式为p-范数,可以写成如下表达式 向量w=(w1,w2,w3,wn)它的p-范数为:当我们不指明p的时候,就意味着我们不关心p的值,用几范数都可以。当用归一化的w和b代替原值之后的间隔有一个专门的名称,叫几何间隔,表示的是点到超平面的欧氏距离。线性分类器 下面这张图直观的展示出了几何间隔的现实含义:H是分类面,而H1和H2是平行于H,且过离H最近的两类样本的直线,H1与H,H2与H之间的距离就是几何间隔。线性分类器 之所以如此关心几何间隔这个东西,是因为几何间隔与样本的误分次
展开阅读全文