大学学习资料:支持向量机通俗导论(理解SVM的三层境界).docx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大学学习资料:支持向量机通俗导论(理解SVM的三层境界).docx》由用户(罗嗣辉)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学 学习 资料 支持 向量 通俗 导论 理解 SVM 三层 境界
- 资源描述:
-
1、支持向量机通俗导论(理解支持向量机通俗导论(理解 SVMSVM 的三层境界)的三层境界)在本文中,你将看到,理解 SVM 分三层境界,第一层、了解 SVM(你只需要对 SVM 有个大致的了解,知道它是个什么东西便已足够);第二层、深入 SVM(你将跟我一起深入 SVM 的内部原理,通宵其各处脉络,以为将来运用它时游刃有余);第三层、证明 SVM(当你了解了所有的原理之后,你会有大笔一挥,尝试证明它的冲动);第一层、了解第一层、了解 SVM1.0、什么是支持向量机、什么是支持向量机 SVM然在进入第一层之前, 你只需了解什么是支持向量机 SVM 就够了, 而要明白什么是 SVM,便得从分类说起。
2、分类作为数据挖掘领域中一项非常重要的任务,目前在商业上应用最多(比如分析型CRM 里面的客户分类模型,客户流失模型,客户盈利等等,其本质上都属于分类问题)。而分类的目的则是学会一个分类函数或分类模型(或者叫做分类器),该模型能吧数据库中的数据项映射到给定类别中的某一个,从而可以用于预测未知类别。其实,若叫分类,可能会有人产生误解,以为凡是分类就是把一些东西或样例按照类别给区分开来,实际上,分类方法是一个机器学习的方法,分类也成为模式识别,或者在概率统计中称为判别分析问题。你甚至可以想当然的认为,分类就是恰如一个商场进了一批新的货物,你现在要根据这些货物的特征分门别类的摆放在相关的架子上, 这一
3、过程便可以理解为分类, 只是它由训练有素的计算机程序来完成。说实话,上面这么介绍分类可能你不一定内心十分清楚。我来举个例子吧,比如心脏病的确诊中,如果我要完全确诊某人得了心脏病,那么我必须要进行一些高级的手段,或者借助一些昂贵的机器,那么若我们没有那些高科技医疗机器怎么办?还怎么判断某人是否得了心脏病呢?当然了,古代中医是通过望、闻、问、切“四诊”,但除了这些,我们在现代医学里还是可以利用一些比较容易获得的临床指标进行推断某人是否得了心脏病。如作为一个医生,他可以根据他以往诊断的病例对很多个病人(假设是 500 个)进行彻底的临床检测之后,已经能够完全确定了哪些病人具有心脏病,哪些没有。因为,
4、在这个诊断的过程中,医生理所当然的记录了他们的年龄,胆固醇等 10 多项病人的相关指标。那么,以后,医生可以根据这些临床资料,对后来新来的病人通过检测那对后来新来的病人通过检测那 10 多项年龄、胆固醇等指标多项年龄、胆固醇等指标,以此就能推断或者判定病人是否有心脏病推断或者判定病人是否有心脏病,虽说不能达到 100%的标准,但也能达到 80、90%的正确率,而这一根据以往临场病例指标分析来推断新来的病例的技术,即成为分类 classification 技术。OK,既然讲到了病例诊断这个例子,接下来咱们就以这个例子来简单分析下 SVM。假定是否患有心脏病与病人的年龄和胆固醇水平密切相关,下表对
5、应 10 个病人的临床数据(年龄用x1表示,胆固醇水平用x2表示):这样,问题就变成了一个在二维空间上的分类问题,可以在平面直角坐标系中描述如下:根据病人的两项指标和有无心脏病,把每个病人用一个样本点来表示,有心脏病者用“+”形点表示,无心脏病者用圆形点,如下图所示:如此我们很明显的看到,是可以在平面上用一条直线把圆点和“+”分开来的。当然,事实上,还有很多线性不可分的情况,下文将会具体描述。So,本文将要介绍的支持向量机 SVM 算法便是一种分类方法。所谓支持向量机,顾名思义,分为两个部分了解,一什么是支持向量(简单来说,就是支持 or 支撑平面上把两类类别划分开来的超平面的向量点,下文将具
6、体解释),二这里的“机”是什么意思。我先来回答第二点:这里的“机(machine,机器)”便是一个算法。在机器学习领域,常把一些算法看做是一个机器,如分类机(当然,也叫做分类器),而支持向量机本身便是一种监督式学习的方法(什么是监督学习与非监督学习,请参见第一篇),它广泛的应用于统计分类以及回归分析中。支持向量机(SVM)是 90 年代中期发展起来的基于统计学习理论的一种机器学习方法,通过寻求结构化风险最小来提高学习机泛化能力, 实现经验风险和置信范围的最小化, 从而达到在统计样本量较少的情况下,亦能获得良好统计规律的目的。对于不想深究 SVM 原理的同学(比如就只想看看 SVM 是干嘛的),
7、那么,了解到这里便足够了,不需上层。而对于那些喜欢深入研究一个东西的同学,甚至究其本质的,咱们则还有很长的一段路要走,万里长征,咱们开始迈第一步吧(相信你能走完)。1.1、线性分类、线性分类OK,在讲 SVM 之前,咱们必须先弄清楚一个概念:线性分类器(也可以叫做感知机,这里的机表示的还是一种算法,本文第三部分、证明 SVM 中会详细阐述)。这里我们考虑的是一个两类的分类问题,数据点用 x 来表示,这是一个 n 维向量,而类别用 y 来表示, 可以取 1 或者 -1 , 分别代表两个不同的类。 一个线性分类器就是要在 n 维的数据空间中找到一个超平面,其方程可以表示为:wTx+b=0对应的几何
8、示意图如下:1.2、线性分类的一个例子、线性分类的一个例子来理论可能读者看不懂,咱们来直接举一个例子吧,且举最简单的例子,一个二维平面(一个超平面,在二维空间中的例子就是一条直线),如下图所示,平面上有两种不同的点,分别用两种不同的颜色表示,一种为红颜色的点,另一种则为蓝颜色的点,红颜色的线表示一个可行的超平面。从上图中我们可以看出,这条红颜色的线把红颜色的点和蓝颜色的点分开来了。而这条红颜色的线就是我们上面所说的超平面, 也就是说, 这个所谓的超平面的的确确便把这两种不同颜色的数据点分隔开来,在超平面一边的数据点所对应的y全是 -1 ,而在另一边全是 1 。接着,我们可以令分类函数(下文将一
9、直用蓝色表示分类函数)f(x)=wTx+b,显然,如果f(x)=0,那么x是位于超平面上的点。我们不妨要求对于所有满足f(x)0则对应y=1的数据点。(有一朋友飞狗来自 Mare_Desiderii, 看了上面的定义之后, 问道: 请教一下 SVM functional margin 为=y(wTx+b)=yf(x)中的 Y 是只取 1 和-1 吗?y 的唯一作用就是确保 functional margin 的非负性?真是这样的么?当然不是,详情请见本文评论下第 43 楼)当然,有些时候(或者说大部分时候)数据并不是线性可分的,这个时候满足这样条件的超平面就根本不存在(不过关于如何处理这样的问
10、题我们后面会讲), 这里先从最简单的情形开始推导,就假设数据都是线性可分的,亦即这样的超平面是存在的。更进一步, 我们在进行分类的时候, 将数据点x代入f(x)中, 如果得到的结果小于 0 ,则赋予其类别 -1 ,如果大于 0 则赋予类别 1 。如果f(x)=0,则很难办了,分到哪一类都不是(后续会说明此种情况)。1.3、函数间隔、函数间隔Functional margin 与几何间隔与几何间隔 Geometrical margin一般而言,一个点距离超平面的远近可以表示为分类预测的确信或准确程度。在超平面w*x+b=0 确定的情况下,|w*x+b|能够相对的表示点 x 到距离超平面的远近,而
11、 w*x+b的符号与类标记 y 的符号是否一致表示分类是否正确,所以,可以用量 y*(w*x+b)的正负性来判定或表示分类的正确性和确信度,于此,我们便引出了函数间隔 functional margin 的概念。1.3.1、函数间隔、函数间隔 Functional margin我们定义函数间隔 functional margin 为:=y(wTx+b)=yf(x),接着,我们定义超平面(w,b)关于训练数据集 T 的函数间隔为超平面(w,b)关于 T 中所有样本点(xi,yi)的函数间隔最小值,即:=mini(i=1,.n)然与此同时,问题就出来了。上述定义的函数间隔虽然可以表示分类预测的正确
12、性和确信度,但在选择分类超平面时,只有函数间隔还远远不够,因为如果成比例的改变 w 和 b,如将他们改变为 2w 和 2b,虽然此时超平面没有改变,但函数间隔的值 f(x)却变成了原来的改变(代进去一眼便看出来了)。其实,我们可以对法向量 w 加些约束条件,使其表面上看起来规范化,如此,我们很快又将引出真正定义点到超平面的距离-几何间隔几何间隔 geometricalmargin 的概念。1.3.2、点到超平面的距离定义:几何间隔、点到超平面的距离定义:几何间隔 Geometrical margin在给出几何间隔的定义之前,咱们首先来看下,如上图所示,对于一个点x,令其垂直投影到超平面上的对应
13、的为x0,由于w是垂直于超平面的一个向量,我们有x=x0+ww(|w|表示的是范数, 关于范数的概念参见: http:/ 分开相除的形式,如本文参考文献及推荐阅读条目 9,其中,|w|为 w 的二阶泛数)不过,这里的是带符号的,我们需要的只是它的绝对值,因此类似地,也乘上对应的类别y即可,因此实际上我们定义 几何间隔几何间隔 geometrical margin 为:=y=w(代人相关式子可以得出:yi*(w/|w| + b/|w|))正如本文评论下读者 popol1991 留言: 函数间隔 y*(wx+b)=y*f(x)实际上就是|f(x)|, 只是人为定义的一个间隔度量;而几何间隔|f(x
14、)|/|w|才是直观上的点到超平面距离。想想二维空间里的点到直线公式:假设一条直线的方程为 ax+by+c=0,点 P 的坐标是(x0,y0),则点到直线距离为|ax0+by0+c|/sqrt(a2+b2)。如下图所示:那么如果用向量表示,设 w=(a,b),f(x)=wx+c,那么这个距离不正是|f(p)|/|w|么?OK,下图中 xi,和 xj 分别到超平面的距离:1.4、最大间隔分类器、最大间隔分类器 Maximum Margin Classifier 的定义的定义于此,我们已经很明显的看出,函数间隔 functional margin 和几何间隔 geometricalmargin 相
15、差一个w的缩放因子。按照我们前面的分析,对一个数据点进行分类,当它的 margin 越大的时候,分类的 confidence 越大。对于一个包含n个点的数据集,我们可以很自然地定义它的 margin 为所有这n个点的 margin 值中最小的那个。于是,为了使得分类的 confidence 高,我们希望所选择的超平面 hyper plane 能够最大化这个margin 值。通过上节,我们已经知道:1、functional margin 明显是不太适合用来最大化的一个量,因为在 hyper plane 固定以后,我们可以等比例地缩放w的长度和b的值,这样可以使得f(x)=wTx+b的值任意大,亦
16、即 functional margin可以在 hyper plane 保持不变的情况下被取得任意大,2、而 geometrical margin 则没有这个问题,因为除上了w这个分母,所以缩放w和b的时候的值是不会改变的,它只随着 hyper plane 的变动而变动,因此,这是更加合适的一个 margin 。这样一来,我们的 maximum margin classifier 的目标函数可以定义为:max 当然,还需要满足一些条件,根据 margin 的定义,我们有其中=w(等价于 = / w,故有稍后的 =1 时, = 1 / |w|),处于方便推导和优化的目的,我们可以令=1(对目标函数
17、的优化没有影响,至于为什么,请见本文评论下第 42 楼回复) ,此时,上述的目标函数 转化为(其中,s.t.,即 subject to 的意思,它导出的是约束条件):通过求解这个问题,我们就可以找到一个 margin 最大的 classifier ,如下图所示,中间的红色线条是 Optimal Hyper Plane ,另外两条线到红线的距离都是等于另外两条线到红线的距离都是等于的的( 便是上文所定义的 geometrical margin,当令=1时, 便为 1/|w|,而我们上面得到的目标函数便是在相应的约束条件下,要最大化这个 1/|w|值):通过最大化 margin , 我们使得该分类
18、器对数据进行分类时具有了最大的 confidence 。但,这个最大分类间隔器到底是用来干嘛的呢?很简单,SVM 通过使用最大分类间通过使用最大分类间隙隙Maximum Margin Classifier 来设计决策最优分类超平面来设计决策最优分类超平面,而为何是最大间隔,却不是最小间隔呢?因为最大间隔能获得最大稳定性与区分的确信度,从而得到良好的推广能力(超平面之间的距离越大,分离器的推广能力越好,也就是预测精度越高,不过对于训练数据的误差不一定是最小的.2012.08.21updated)。So,对于什么是 Support Vector Machine ,我们可以先这样理解,如上图所示,我
19、们可以看到 hyper plane 两边的那个 gap 分别对应的两条平行的线 (在高维空间中也应该是两个 hyper plane)上有一些点,显然两个超平面 hyper plane 上都会有点存在,否则我们就可以进一步扩大 gap ,也就是增大的值了。这些点,就叫做 support vector。下文 1.5节将更为具体描述。1.5、到底什么是、到底什么是Support Vector上节,我们介绍了 Maximum Margin Classifier,但并没有具体阐述到底什么是 SupportVector,本节,咱们来重点阐述这个概念。咱们不妨先来回忆一下上节 1.4 节最后一张图:可以看到
20、两个支撑着中间的 gap 的超平面,它们到中间的纯红线 separating hyperplane 的距离相等,即我们所能得到的最大的 geometrical margin。而“支撑”这两个超平面的必定会有一些点,而这些“支撑”的点便叫做支持向量 Support Vector。很显然,由于这些 supporting vector 刚好在边界上,所以它们是满足y(wTx+b)=1(还记得我们把 functional margin 定为 1 了吗?上节中:“处于方便推导和优化的目的,我们可以令 =1”),而对于所有不是支持向量的点,也就是在“阵地后方”的点,则显然有y(wTx+b)1。当然,通常除
21、了 K-Nearest Neighbor 之类的 Memory-basedLearning 算法,通常算法也都不会直接把所有的点记忆下来,并全部用来做后续 inference中的计算。不过,如果算法使用了 Kernel 方法进行非线性化推广方法进行非线性化推广的话,就会遇到这个问题了。Kernel 方法在下文第二部分 2.2 节中介绍)。OK,到此为止,算是了解到了 SVM 的第一层,对于那些只关心怎么用 SVM 的朋友便已足够,不必再更进一层深究其更深的原理。第二层、深入第二层、深入 SVM2.1、从线性可分到线性不可分、从线性可分到线性不可分当然,除了在上文中所介绍的从几何直观上之外,支持
22、向量的概念也可以从其优化过程的推导中得到。虽然上文 1.4 节给出了目标函数,却没有讲怎么来求解。现在就让我们来处理这个问题。回忆一下之前得到的目标函数(subject to 导出的则是约束条件):这个问题等价于(w 由分母变成分子,从而也有原来的 max 问题变为 min 问题,很明显,两者问题等价):1.到这个形式以后,就可以很明显地看出来,它是一个凸优化问题,或者更具体地说,它是一个二次优化问题目标函数是二次的,约束条件是线性的。这个问题可以用任何现成的 QP(Quadratic Programming) 的优化包进行求解。所以,我们的问题到此为止就算全部解决了。2.虽然这个问题确实是一
23、个标准的 QP 问题,但是它也有它的特殊结构,通过 Lagrange Duality 变换到对偶变量 (dual variable) 的优化问题之后,可以找到一种更加有效的方法来进行求解,而且通常情况下这种方法比直接使用通用的 QP 优化包进行优化要高效得多。也就说,除了用解决 QP 问题的常规方法之外,还可以应用拉格朗日对偶性,通过求解对偶问题得到最优解,这就是线性可分条件下支持向量机的对偶算法,这样做的优点在于:一者对偶问题往往更容易求解;二者可以自然的引入核函数,进而推广到非线性分类问题。ok, 接下来,你将看到“对偶变量对偶变量 dual variable 的优化问题的优化问题”等类似
24、的关键词频繁出现,便是解决此凸优化问题的第二种更为高效的解-对偶变量的优化求解.至于上述提到,关于什么是 Lagrange duality,简单地来说,通过给每一个约束条件加上一个 Lagrange multiplier(拉格朗日乘值):,我们可以将约束条件融和到目标函数里去(也就是说把条件融合到一个函数里头,现在只用一个函数表达式便能清楚的表达出我们的问题):然后我们令容易验证, 当某个约束条件不满足时, 例如yi(wTxi+b)F 是从输入空间到某个特征空间的映射,这意味着建立非线性学习器分为两步:1.首先使用一个非线性映射将数据变换到一个特征空间 F,2.然后在特征空间使用线性学习器分类
25、。在上文我提到过对偶形式,而这个对偶形式就是线性学习器的一个重要性质,这意味着假设可以表达为训练点的线性组合,因此决策规则可以用测试点和训练点的内积来表示:如果有一种方式可以在特征空间中直接计算内积在特征空间中直接计算内积(xi (x),就像在原始输入点的函数中一样, 就有可能将两个步骤融合到一起建立一个非线性的学习器, 这样直接计算法的这样直接计算法的方法称为核函数方法,方法称为核函数方法,于是,核函数便横空出世了。这里我直接给出一个定义:核是一个函数 K,对所有 x,z(-X,满足,这里是从 X 到内积特征空间 F 的映射。3、总而言之,举个简单直接点的例子,则是如果不是用核技术,就会先计
展开阅读全文