非线性支持向量机课件.ppt

上传人（卖家）：晟晟文业

文档编号：5183792

上传时间：2023-02-16

格式：PPT

页数：56

大小：1.63MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《非线性支持向量机课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 非线性支持向量课件

资源描述：: 1、数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典元昌安元昌安主编主编邓松李文敬刘海涛编著邓松李文敬刘海涛编著电子工业出版社电子工业出版社14.114.1支持向量机基础支持向量机基础14.1.114.1.1机器学习的基本问题机器学习的基本问题14.1.214.1.2经验风险最小化问题经验风险最小化问题14.1.3 VC14.1.3 VC维与学习一致性理论维与学习一致性理论14.1.414.1.4结构化风险最小化结构化风险最小化14.214.2支持向量机的基本原理支持向量机的基本原理14.2.114.2.1线性支持向量机线性支持向量机14.2.214.2.2广义线
2、性支持向量机广义线性支持向量机14.2.314.2.3非线性支持向量机非线性支持向量机14.2.3.114.2.3.1到高维空间的影射到高维空间的影射14.2.3.214.2.3.2核函数核函数14.314.3支持向量机的实现技术支持向量机的实现技术14.3.1 chunking14.3.1 chunking算法算法14.3.2 Decomposing14.3.2 Decomposing算法算法14.3.3 SMO14.3.3 SMO算法算法14.3.5 SMO14.3.5 SMO算法的特点和优势算法的特点和优势14.414.4支持向量回归机支持向量回归机14.4.114.4.1不敏感损失函数
3、不敏感损失函数14.4.214.4.2支持向量回归机模型支持向量回归机模型14.514.5支持向量机的改进算法支持向量机的改进算法数据挖掘原理与数据挖掘原理与SPSS Clementine应用宝典应用宝典元昌安元昌安主编主编邓松李文敬刘海涛编著邓松李文敬刘海涛编著电子工业出版社电子工业出版社14.1支持向量机基础支持向量机基础支持向量机(support vector machines)是由贝尔实验室研究者Vapnik于20世纪90年代最先提出的一种新的机器学习理论，是建立在统计学习理论的VC维理论和结构风险最小原理基础上的，根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷，以
4、期获得最好的推广能力。支持向量机从诞生至今才10多年，发展史虽短，但其理论研究和算法实现方面却都取得了突破性进展，有力地推动机器学习理论和技术的发展。这一切与支持向量机具有较完备的统计学习理论基础的发展背景是密不可分的。统计方法统计方法是从事物的外在数量上的表现去推断该事物可能的规律性，它主要考虑测试预想的假设和数据模型拟合，依赖于显式的基本概率模型。统计学习理论统计学习理论是针对小样本情况下的机器学习理论，它依据算法的经验风险以及算法本身的构造推测它的实际风险，获得了较好的算法泛化能力。统计学习理论将算法的训练过程看作算法向训练样本学习的过程。统计学习理论的统计学习理论的4 4个部分：个部分
5、：1.学习过程一致性的理论。一个基于经验风险最小化原则的学习过程满足什么条件，它的经验风险与实际风险趋向一致。2.学习过程收敛速度的理论。如果学习过程的经验风险与实际风险趋向一致，那么它们间的接近速度随着训练样本数的增加是如何变化的。哪些因素控制着它们接近的速度。3.控制学习过程泛化能力的理论。采用前两部分的结论改进学习过程。4.构造学习算法的理论。采用前三部分的结论，在分类和拟合问题中构造现实的学习算法。14.1.1机器学习的基本问题机器学习的基本问题统计学习理论领域里把学习问题看作是利用有限数量的观测来寻找待求的依赖关系的问题。而基于数据的机器学习问题，则是根据已知样本估计数据之间的依赖关
6、系，从而对未知或无法测量的数据进行预测和判断。样本学习的一般模型xySLMG可见，学习问题就是从给定的函数集，选择出能够最好地逼近训练器响应的函数。机器学习的目标可以形式化的表示为：根据n个独立同分布的观测样本，在一组函数中求出一个最优函数，使其对未知样本进行估计时，最小化期望风险泛函。其中联合概率分布是未知的，是用对y进行预测时造成的损失，称为损失函数损失函数。简单地说，学习的目标就是求一映射函数，使之与实际系统映射的差异最小。),(),(,()(yxdFwxfyLwR),y,(x),y(xnn 11w)f(x,)wf(x0,),(yxF),(,(wxfyLw)f(x,14.1.2经验风险最
7、小化问题经验风险最小化问题学习机器产生的映射函数与实际系统的映射之间的差异可以用单个样本点上的损失函数来描述。损失函数在总体样本集上的数学期望，即为期望风险的泛函：),(,(wxfyLniiiempwxfyLnwR1),(,(1)(min损失函数描述了映射函数与实际系统在总体集上的差异，将学习的目标变成了最小化期望风险。在实际的问题中，无法直接的计算得到。)(wR)(wR 在传统的机器学习方法中，通常将经验风险作为期望风险的估计值，学习的目标就是使经验风险Remp最小，强调利用经验风险最小化（ERM）原则进行学习。但实际上，用ERM原则代替最小化期望风险泛函，只是直观上合理的想当然做法而已，理
8、论依据并不充分，容易“过学习过学习”(overfitting)。underfittingoverfittinggood fit14.1.3 VC维与学习一致性理论维与学习一致性理论对于二值分类问题，其目标函数对于二值分类问题，其目标函数f只有只有0和和1两种取值，称这类函两种取值，称这类函数为数为指示函数。对于一个指示函数集的VC维维是指能够被“打散”(即，被里的函数按照所有可能的形式分开)的样本集合可能具有的最大样本数(或称作样本集合的最大基数)，记作。一般而言，VC维代表了机器的学习能力，其值越大表明其学习机器的学习能力越强，但学习机器就越复杂。然而，目前还没有通用的关于计算任意函数集的V
9、C维的理论，只有对一些特殊函数集的VC维可以准确知道。)(VCHDim对于指示函数集和概率分布函数，如果下列两序列概率地收敛到同一极限，则称为经验风险最小一致性。),()(infwRwRwpll).()(infwRwRwpllemp 图14-3 经验风险最小一致性在VC维和学习一致理论基础上，Vapnik等人证明了对二值分类问题，指示函数集中所有的函数，经验风险和实际风险之间至少以概率满足如下关系:14ln)12(ln)()(limnHnHwRwRPempn)(VCHDim其中，是函数集的VC维，n是样本数。上式实质上给出了ERM原则的泛化能力的界。在此基础上，Vapnik等人从理论角度解释了
10、机器学习中的过学习问题，并建立起适用于小样本数据的结构风险最小化原则。上式中的界由两部分组成：经验风险（即训练误差）和置信范围(Confidence Interval)。14.1.4结构化风险最小化结构化风险最小化通常，在小样本的情况下，对于复杂的学习机器，其训练误差过小，但反而造成了置信范围的增大，从而导致泛化性能下降。这往往是由于学习机器的结构不合理造成的。因此，ERM原则在样本有限时是不合理的。为此，统计学习理论提出了一种新的策略，在保证ERM原则的基础上，降低学习机器的VC维，能够使得期望风险在整个总体集上得到控制，即在训练误差和置信范围二者之间寻求一个折衷。这种思想就是结构风险最小化
11、(Structural Risk Minimization，SRM)原则。图14-4 结构风险最小化原则最小化算法的经验风险与置信范围之和(而不仅仅是最小化经验风险)被称作结构风险最小化原则结构风险最小化原则。实现SRM原则可以有两种思路：1.对函数集S的每个子集Si求最小经验风险,然后选择使最小经验风险和置信范围之和最小的子集；2.设计函数集的某种结构使每个子集中都能取得最小的经验风险，如使训练误差为0,然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数。14.2支持向量机的基本原理支持向量机的基本原理基本概念1.一般地，如果一个线性函数能够将样本完全正确的分
12、开，就称这些数据是线性可分的，否则称为非线性可分的。如果不关注函数空间的维数，这种线性函数还有一个统一的名称，叫超平面（Hyper Plane）。2.通常人们称由线性函数作为分类决策函数的分类器叫线性分类器。同样地，称由非线性函数作为分类决策函数的分类器叫非线性分类器。相应地，由线性函数作为分类决策函数的支持向量机称为线性支持向量机，反之，由非线性函数作为分类决策函数的支持向量机称为非线性支持向量机。14.2.1线性支持向量机一个二值分类问题：设线性可分样本集(x1,y1),(x2,y2),(xm,ym),xRn,y+1,-1是类别标号，X为具有个属性的向量。要求在上找，得到决策函数，这就是
13、分类学习机器。在2维线性空间中线性判别函数的一般形式为：。其中，最优分类线L的方程的规范化形式为：其几何表示如下图：0bxwbxwxg)(L1L2L分类直线示意图由直线间的距离公式可证：L1与L2之间的距离为：，并且使训练集中的点距离分类线尽可能的远，也就是寻找一个分类线使它两侧的空白区域(margin)最大。w/2进一步推广到n2时，则同样存在超平面，其中xRn,w,bRn。使得样本集中的任意二元组(xi,yi)，满足:当时当时可以统一起表示为:0bxwT?,1bxwiT?1iy,1?bxwiT?1iy01)(bxwyTimi,2,1 其中，满足上式的超平面就是分类超平面（Seper
14、ating Hyperplane）。在样本线性可分时，存在无数个这样的超平面。R2的线性可分情况如图14-6所示：图14-6 分类超平面示意图图14-7 最优分类超平面图2w使间隔margin最大实际上等价于使最小。因此，满足上述条件且使最小的分类超平面就是最优分类超平面。两类样本中离分类面最近的点且平行于最优分类超平面的样本点叫做支持向量。2w最优分类超平面最后可以表示成一个约束优化问题：这是一个严格凸规划问题，可以转换成拉格朗日(Lagrange)问题进行求解。为此，可以定义如下的Lagrange函数：niiTiiTpbxwyawwabwL1)1)(21),(其中0ia为Lagrange
15、乘子。由Karush-Kuhn-Tucker(KKT)条件，上式所示的函数在其鞍点位置满足：miiimiiiippyaxyawLbLw110,0aminmjijTijijimiiaxxyyaaaaL1,121)(miayaimiii ,1,0,01(14-2-8)将上式代入(14-2-6)，消去w和b得到原问题的Wolf对偶（Dual）问题：s.t 这是一个标准的二次规划问题，是在一个不等式约束条件下进行二次函数寻优。该类问题存在唯一解。*计算，选择的一个正分量 ,并据此计算*1(,)Tlaa*1liiiiwyx*a*j*1ljiijiibyyxx事实上，的每一个分量都与一个训练点相对应
16、。而分划超平面仅仅依赖于不为零的训练点，而与对应于为零的那些训练点无关。*i*i,iix y*i其中不为零的这些训练点的输入为支持向量支持向量(SV)*iix构造分划超平面 ,决策函数*0wxb*sgn()f xwxb根据最优解1lii1,Tl对于近似线性可分问题不要求所有训练点都满足约束条件，为此对第个训练点引入松弛松弛变量变量(Slack Variable),把约束条件放松到。1iiyw xbi,iix y0i1iiiyw xb 体现了训练集被错分的情况，可采用作为一种度量来描述错划程度。1lii两个目标两个目标：1.间隔尽可能大 2.错划程度尽可能小2w（即“软化
17、”约束条件）14.2.2广义线性支持向量机广义线性支持向量机0C 2,11min 2.()1,1,0,1,liw biiiiiwCstyw xbilil 因此，引入一个惩罚参数惩罚参数，新的目标函数变为:体现了经验风险，而则体现了表达能力。所以惩罚参数实质上是对经验风险和表达能力匹配一个裁决。当时，近似线性可分SVC的原始问题退化为线性可分SVC的原始问题。1liiwCC显然，当充分大时，样本点总可以满足以上约束条件。然而事实上应避免太大，所以需在目标函数对进行惩罚i(,)iix yi,1,1,1,niixR yilyx 11(,),(,)()lllTxyxyyx1.设已知训练
18、集，其中 2.选择适当的惩罚参数，构造并求解最优化问题 0C111l1i1min 2.0 0,1,lllijijijjijjiiiy yx xstyC il 求得*1(,)Tlaaa3.计算，选择的一个分量，并据此计算出 *1liiiiwyx*0jC*1ljiiijibyy axx4.构造分划超平面 ,决策函数*()0wxb*()sgn()f xw xb14.2.3非线性支持向量机非线性支持向量机在实际应用中，一般的分类问题在定义的特征空间中并不一定线性（或近似线性）可分的。例对于线性不可分的情况或近似不可分的情况，通常的做法是把未知问题转化为已知问题，也就是转化为线性可分的情况
19、。对于这类问题，我们可以考虑通过一个非线性映射，将低维输入空间中的数据特征x映射到高维线性特征空间F中，然后在高维空间中求线性最优分类超平面，将分类问题转换到特征空间中进行，T:RNP xF(x)然后用前面介绍的广义最优分类面方法加以解决。设训练集，其中假定可以用平面上的二次曲线来分划：(,),1,iiTx yil 12(,),1,1Tiiiixxxy12(,)xx22212132412516 2 2 2 0wwxwxwxxwxwxb现考虑把2维空间映射到6维空间的变换12()Txxx,22121212()(1,2 ,2 ,2 ,)Txxxxxxx上式可将2维空间上二次曲线映射为6维空间
20、上的一个超平面：112233445566 2 2 2 0wXwXwXwXwXwXb(1)可见，只要利用变换，把所在的2维空间的两类输入点映射到所在的6维空间，然后在这个6维空间中，使用线性学习机求出分划超平面：2*2*2121324125162 2 2 0wwxwxwxxwxwxbxX*16()0(,)Twxbwww，其中最后得出原空间中的二次曲线：怎样求6维空间中的分划超平面？(线性支持向量分类机)111l1i1min ()()2.0 0,1,lllijijijjijjiiiy yxxs tyC il 需要求解的最优化问题22121212()(1,2 ,2 ,2 ,)Tiiiiiiixx
21、xxxxx22121212()(1,2,2,2 ,)Tjjjjjjjxxxxxxx其中1122121222221122()()12 2 2 ijijijiijjijijxxxxxxxxxxxxxx(2)在求得最优化问题的解后，得到分划超平面*()0wxb其中*1(,)Tl*1(),|0liiijiwyxjjC 最后得到决策函数*1()sgn()()sgn()()liiiif xwxbf xyxxb 或*1()()ljiiijibyyxx 线性分划非线性分划代价：2维空间内积6维空间内积为此，引进函数有211222222112211221122(,)(1)12 2 2 ijijijijijij
22、ijijijK x xxxxxxxxxxxxxxxxx 比较(2)和(3)，可以发现(3)2()()(,)()1)ijijijxxK x xx x这是一个重要的等式，提示6维空间中的内积可以通过计算中2维空间中的内积得到。()()ijxx(,)ijK x x()ijx x2)1)(),(jijixxxxK实现非线性分类的思想：实现非线性分类的思想：给定训练集后，决策函数仅依赖于而不需要再考虑非线性变换，如果想用其它的非线性分划办法，则可以考虑选择其它形式的函数，一旦选定了函数，就可以求解最优化问题(,)ijK x x()x得最优解，因而2)1)(),(jijixxxxKTliaaaa)
23、,(21liCytsaxxKyyiliiiljjljijijijia,2,1,00.),(21111,min?*1()sgn(,)liiiif xyK x xb决策函数其中*1(,)|0ljiiijjibyyK x xjjC(,)iK x x 核函数设是中的一个子集。称定义在上的函数是核函数(正定核或核)，如果存在着从到某一个空间的映射nR(,)K x xHilbert使得(,)()()K x xxx其中表示中的内积()Hilbert14.2.3.2核函数核函数).(:,xxH?非线性SVM的泛化性能和算法的复杂度取决于支持向量的数目，而与特征空间的维数无关。这种非线性SVM的
24、分类函数（SVC）形式上类似于神经网络，其输出层是由若干中间结点组成，每个结点对应于输入样本点与一个SV的内积，因而也被称为支持向量网络(SV Networks)，如下图所示。支持向量网络示意图多项式内核径向基函数内核RBFSigmoind内核(,)()qiiK x xx xc22|(,)expiixxK x x(,)tanh()iiK x xx xc目前研究最多的核函数主要有三类：得到q 阶多项式分类器每个基函数中心对应一个支持向量，它们及输出权值由算法自动确定包含一个隐层的多层感知器，隐层节点数是由算法自动确定14.3支持向量机的实现技术支持向量机的实现技术14.3.1 chunking
25、算法算法算法基本思想是：SVM学习过程就是得到支持向量(SV)及其对应的Lagrange乘子，因此建立一个工作集(working set)，通过迭代，启发式的引入SV而将非支持向量排除出去。通常称训练集T中的任意一个子集为“块”，选块算法的基本思想是，去掉对应于非支持向量的Lagrange乘子=0的那些训练点，而只对支持向量计算相应的Lgarnage的乘子。通过某种迭代方式逐步排除非支持向量，选出支持向量所对应的“块”。图14-9chunking算法流程14.3.2 Decomposing算法 Decomposing基本思想是将样本数据的序号集1,2,l分为工作集B和非工作集N，工作集B的大小
26、为q，这样将大规模的二次规划问题转化成只有q个优化变量、2q个线性不等式约束、1个等式约束的小规模二次规划问题。分解算法与选块算法的不同之处在于它每次只更新若干个Lagrange乘子，而其他的乘子保持不变。每次一个新样本点加到工作集中去，就必须舍去另外一个样本点。迭代过程中只是将工作集之外的样本点中一部分“情况最糟的样本点”与工作集中一部分样本点进行等量交换。即使支持向量的个数超过工作集的大小，也不改变工作集的规模。图14-10Decomposing算法流程14.3.3 SMO算法算法SMO算法的核心思想可概括为如下三点：由于等式约束的存在使得不可能单独优化一个变量，一次至少要同时对2个样本进
27、行优化。并且，这种仅具有2个Lagrange乘子的优化问题可以通过分析的方法加以解决，所以，SMO算法使用简单的代码就可以实现子问题求解，避免了使用数值算法进行QP最优化。因此，选取工作集大小为两个样本。这样，每次迭代都是针对工作上的两个乘子进行的联合优化(Joint optimization)过程。尽管子问题数目增加了，但是总体来讲，计算速度仍然大幅度提高。每次联合优化过程，需要用到上一次优化后的偏置和边界样本决策。因此，每次优化完成后，需要重新计算偏置；而边界样本决策可以存储在缓存中，便于读取和更新。Platt设计了启发式算法选择进入工作集的样本。每次选择两个样本进入工作集，第一个为违反K
28、KT，条件的样本，非边界样本优先；第二个为与前一个样本有最大误差的样本。和上一条思想相结合，把非边界样本点的误差存放在缓存中。14.3.5 SMO算法的特点和优势算法的特点和优势 MSO的最大特色在于它可以采用解析的方法而完全避免了二次规划数值解法的复杂迭代过程。这不但大大节省了计算时间，而且不会牵涉到迭代法造成的误差积累 SMO在内存的节省上也颇具特色。由于MSO不涉及二次规划数值解法，就不必将核函数矩阵整个存在内存里，而数值解法每步迭代都要拿这个矩阵作运算。于是，SMO使用的内存是与样本集大小成线性增长的，而不象以往的算法那样成平方增长。SMO算法对线性支持向量机最为有效，对非线性则不能发
29、挥出全部优势。当大多数Lagrange乘子都在边界上时，SMO算法的效果会更好。因此SMO较适合大数量的样本。14.4支持向量回归机支持向量回归机支持向量回归机(Support Vector Regression)的基本思想是通过一个非线性映射将数据映射到高维特征空间，并在这个空间进行线性回归。此模型是在分类模型的基础上引进一个修正距离的损失函数，它可以确保对偶变量的稀疏性，同时确保全局最小解的存在和可靠泛化界的优化。14.4.1不敏感损失函数不敏感损失函数为了构造针对实函数集的支持向量回归模型，必须使用一类新的损失函数，即所谓的不敏感损失函数（-Insensitive）：(14-4-2)这种
30、损失函数描述了不敏感模型：如果当x点的预测值与观测值之间的偏差小于事先给定的时，则认为在该点的预测值是无损失的（即损失等于零），尽管预测值与观测值可能并不完全相等。)x,a)|L(|y-f(,a)M(y,f(xC+0图14-11不敏感损失函数示意图图14-12带示意图图14-132次不敏感损失函数示意图14.4.2支持向量回归机（支持向量回归机（SVR）模型）模型以上优化是假设存在一个线性函数，使得所有样本点都满足约束条件。但是，当此假设不成立，即找不到满足(14-4-7)的约束条件的函数时，优化显然是无解的。为了避免这种情况的出现，用类似于支持向量分类中的“软边缘”方法，引入上下松弛因子，
31、则原问题变为求解以下优化问题：niiniibyxwbxwytsCwwiiiiiiniii,2,1,0,2,1,0.)(21min1?ii,其中，C是预先给定的惩罚因子，用于控制模型复杂度和逼近误差的折中；用于控制回归逼近误差管道的大小，从而控制支持向量的个数和泛化能力。将上式的优化问题转变成相应的Lagrange函数则有：niiiiiniiiiniiiiniiidxwydyxwCwwJ1*1*11)()(21?bxxKxfiini),()()(i1用类似支持向量分类机求解原理求解，则得目标的回归方程：14.5支持向量机的改进算法支持向量机的改进算法14.5.1 V-SVM算法算法支持向量的数
32、目是影响分类结果和算法效率的一个重要因素。在Vapnik的广义支持向量机（也称CSVM，如式14-2-11）的基础上，研究者们又提出了使用新的参数V来控制支持向量的数目和误差的支持向量机，称为VSVM。其初始问题的描述为：在VSVM中参数C被V取代，而简化为一个带有上下界约束和一个简单的等式约束的二次规划问题，并可以用现有解CSVM算法的方法求解。为了计算控制参数b和选取相同数量S的训练样本组成两个集合+S和-S，+S表示从正类样本中选取的集合，-S表示从负类样本中选取的集合，其中包含的支持向量14.5.2 One-c1ass SVM算法 One-classSVM算法最早用于高维分布估计，即寻
33、找超平面VC维的估算值。该算法初始问题描述为：后来有研究者提出改进方法，用超球面代替超平面的对样本进行划分，目标函数的初始问题变化为如下形式：14.5.3 RSVM算法算法对于大规模数据分类问题，用传统的优化算法实现支持向量机的难点在于密度矩阵()不能保存在内存中，收敛速度慢，特别是具有很多个支持向量的大规模数据分类问题。有研究者提出了通过限制支持向量的数目来求解问题的简约支持向量机方法，即RSVM(Reduced SVM)。RSVM主要用于处理海量数据，形式上是一种线性SVM，在优化的过程中只保留了初始问题的个约束，即将矩阵的维数从降低到，其中m是任意选择的作为候选支持向量的训练样本子集的规
34、模。这样，内存就可以存储适当容量的密度矩阵。该算法的特点是只使用少量的样本信息，测试精度较低，但在处理大规模数据分类问题上，会体现出其训练时间上的优势。clQ2Qllml通过设定参数V（0V=1）,使得超球面的半径R和它所能包含的训练样本数目进行折中。当V小的时候，尽量把样本放进球面内，而当V大的时候，则尽量压缩球的尺寸。即，该方法通过把样本映射到特征空间，并尽量用一个超球面来描述特征空间的样本，把大部分的样本包含到球面中，超平面只是将两类样本分开。超球面不仅可以分开两类，而且每一部分空间的地位是不相等的。因而通过控制超球面的大小和范围，超球面不仅可以分开两类，而且还把球里面的样本尽量包牢包纯
35、，拒绝其它类的样本进入。14.5.4 LS-SVM算法算法Suyken将最小二乘引入SVM中，提出了最小二乘支持向量机算法。其采用了平方项作为优化指标，只有等式约束，没有C-SVM算法中的不等式约束，使得初始问题不再是二次规划求解，而是把二次优化问题转化为一个线性方程组的求解问题，该算法目标函数可描述为：其中,r为错误惩罚分量，为误差变量。将上求解式的优化问题转化了求如下线性方程组14.5.5 WSVM算法算法支持向量机引入惩罚系数C实行对错误分类的惩罚。然而，在实际的应用问题中，对某些样本正确分类的要求高，而对某些样本正确分类的要求较低，因此，需要对每个样本采取不同的惩罚系数，以得到更准确和满意的分类结果。这种支持向量机称为加权支持向量机(weihgted SVM)。该算法适用于解决不同类别的样本数量差异较大的问题，或存在分类结果偏向数量较多的问题。该算法的初始问题可描述为：14.5.6模糊支持向量机算法模糊支持向量机算法(FSVM)14.5.7多类值支持向量机算法多类值支持向量机算法用SVM解多类问题的思路通常是将其转化为两类问题，然后对结果进行处理。常用方法有：

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：非线性支持向量机课件.ppt
链接地址：https://www.163wenku.com/p-5183792.html

晟晟文业

内容提供者

实名认证

联系作者