第8章-支持向量机课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第8章-支持向量机课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 支持 向量 课件
- 资源描述:
-
1、第八章 支持向量机 n支持向量机SVM(Support Vector Machines)是由Vanpik领导的AT&T Bell实验室研究小组在1963年提出的一种新的非常有潜力的分类技术,SVM是一种基于统计学习理论的模式识别方法,主要应用于模式识别领域。n发展:90年代,由于统计学习理论的实现和神经网络等较新兴的机器学习方法的研究遇到一些重要的困难,如,如何确定网络结构的问题、过学习与欠学习问题、局部极小点问题等,使得SVM迅速发展和完善。nSVM优势:小样本、非线性及高维模式识别问题,函数拟合等其他机器学习问题n运用:模式识别、回归分析、函数估计、时间序列预测等领域,文本识别、手写字体识
2、别、人脸图像识别、基因分类、时间序列预测等。第八章 支持向量机 n8.1 概述概述n8.2 统计学习理论统计学习理论 n8.3 支持向量机(支持向量机(SVM)n8.4 核函数核函数n8.5 SVM的算法及多类的算法及多类SVMn8.6 SVM的应用现状的应用现状n8.7 小结小结8.1 概述概述n基于数据的机器学习:从观测数据(样本)出发寻找数据中的模式和数据中的函数依赖规律,利用这些模式和函数依赖对未来数据或无法观测的数据进行分类、识别和预测。n分为三种:n一、经典的(参数)统计估计算法-参数的相关形式是已知的,训练样本用来估计参数的值。局限性:1.需要已知样本分布形式,2.假设样本数目趋
3、于无穷大,但在实际问题中,样本数往往是有限的。n二、人工神经网络(ANN)-利用已知样本建立非线性模型,克服了传统参数估计方法的困难。应用广泛,但是现在的神经网络技术研究理论基石不足,有较大的经验成分,在技术上仍存在一些不易解决的问题。n三、支持向量机(SVM),统计学习理论。SVM是统计学习理论中最年轻的内容,也是最实用的部分,已经成为神经网络和机器学习的研究热点之一。支持向量机的基本思想支持向量机的基本思想n训练数据集非线性地映射到一个高维特征空间n目的:把在输入空间中的线性不可分数据集映射到高维特征空间后变为是线性可分的数据集n在特征空间建立一个具有最大隔离距离的最优分隔超平面 n存在多
4、个分类超平面可以把两个类分离开来,但是只有一个是最优分类超平面,它与两个类之间最近向量的距离最大。n支持向量机的目的:找出最优的分类超平面。8.2 统计学习理论统计学习理论n统计学习理论诞生于20世纪6070年代,主要创立者:Vladimir N.Vapnik,90年代中期发展比较成熟,受到世界机器学习界的广泛重视。n统计学习理论:一种专门研究小样本情况下机器学习规律的理论。针对小样本统计问题建立了一套新的理论体系,该体系下的统计推理规则不仅考虑了对渐近性能的要求,而且追求在现有有限信息的条件下得到最优结果。8.2.1 学习问题的表示学习问题的表示n样本学习的一般模型n产生器(G):产生随机向
5、量,它们是从固定但未知的概率分布函数F(x)中独立抽取的。n训练器(S):对每个输入向量x返回一个输出值y,产生输出的根据是同样固定但未知的条件分布函数F(y|x)。n学习机器(LM):它能够实现一定的函数集,其中是参数集合。n在学习过程中,学习机器LM观察数据对(x,y)。在训练之后,学习机器必须对任意输入x,使之接近训练器的响应y。8.2.2 期望风险和经验风险期望风险和经验风险n给定输入x下训练器响应y与学习机器给出的响应 之间的损失记作n 就是风险泛函,即预测的期望(实际)风险。n 称为经验风险。),(axf),(,(axfyL),(),(,()(yxdFaxfyLaRliiiempa
6、xfyLlaR1),(1)(8.3 支持向量机(支持向量机(SVM)n一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标便是间隔最大化,因此支持向量机本身可以转化为一个凸二次规划求解的问题。函数间隔与几何间隔函数间隔与几何间隔n对于二分类学习,假设数据是线性可分的n分类学习:找到一个合适的超平面,该超平面能够将不同类别的样本分开n类似二维平面使用ax+by+c=0来表示,超平面实际上表示的就是高维的平面,如下图所示:8.3.1 线性可分支持向量机线性可分支持向量机n划分超平面:n其中,为法向量。n样本空间中任意点x到超平面(w,b)的距离写为:0bxwTwbx
7、wrT|dwwww,218.3.1 线性可分支持向量机线性可分支持向量机n假设超平面能正确分类,则:n两个异类支持向量到超平面的距离之和为:1,11,1iiTiiTybxwybxww28.3.1 线性可分支持向量机线性可分支持向量机n欲找最大间隔的划分超平面,即找满足约束的参数w,b使得 最大,即:mibxwytsiTi,2,1,1)(.wbw2max,8.3.1 线性可分支持向量机线性可分支持向量机n等价于:mibxwytsiTi,2,1,1)(.2,21minwbw0*bxw)()(*bxwsignxf8.3.1 对偶问题对偶问题Niiiyts10.NiNjNiijijijixxyy111
8、)(21minNiCi,2,1,0n支持向量机问题可以等价为求解下面的二次规划问题:最小化泛函:约束条件为不等式类型 该问题的解是由下面的拉格朗日泛函的鞍点给出的:其中 为拉格朗日乘子。问题的对偶问题为:最大化泛函约束条件为:这样原问题的解为:)(21)(www libwxyii,2,1,1)(1)()(21),(1bwxyawwabwLiiliiia)(21)(1,1jijijljiiliixxyyaaaaWliai,2,1,0 01iliiyaiiliixayw1n由拉格朗日可得到原问题的Karush-Kuhn-Tucker(KKT)条件:n根据优化理论,是原问题的解当且仅当 满足KKT条
9、件。n在对偶问题或KKT条件中,每个训练数据 都对应一个拉格朗日乘子 ,其中与 对应的数据成为支持向量。0wL 0bLlibwxyii,2,1,01)(liai,2,1,0 libwxyaiii,2,1,01)(),(bw),(abwix0ia0ian利用任一支持向量和利用任一支持向量和KKT条件条件 ,可求出,可求出 一般情况下,为了准确,常求出多个一般情况下,为了准确,常求出多个b值,然后取平均值,或者值,然后取平均值,或者 其中,用其中,用 表示属于第一类的任一支持向量,用表示属于第一类的任一支持向量,用 表示属表示属于第二类的任一支持向量。于第二类的任一支持向量。最后的最优超平面方程:
10、最后的最优超平面方程:最终完成学习过程。最终完成学习过程。01)(bwxyaiii iiyxwb)()1()1(21*xwxwb)1(*x)1(*x0bxxayiiSVxii=+).(8.3.2 线性不可分与软间隔最大化线性不可分与软间隔最大化n首先我们引入松弛变量首先我们引入松弛变量 来表示经验风险,将原约束条件变为:来表示经验风险,将原约束条件变为:这样,样本数据的经验风险在一定程度上可以表示为:这样,样本数据的经验风险在一定程度上可以表示为:其中其中 参数,代表经验风险的某种度量方式。参数,代表经验风险的某种度量方式。n给定样本数据给定样本数据 后,我们在容许结构的某个子集下最小后,我们
11、在容许结构的某个子集下最小化经验风险,问题可以描述为:化经验风险,问题可以描述为:最小化泛函:最小化泛函:约束条件为:约束条件为:libwxyiii,2,1,1)(liiF1)(0lzzz,21 liiF1)(iiibwxy1)(kcww)(n这个问题可以等价为在约束条件下最小化泛函:这个问题可以等价为在约束条件下最小化泛函:这里的这里的C是一个给定的值。是一个给定的值。n原问题的对偶形式为:原问题的对偶形式为:n只是约束条件变为:只是约束条件变为:n这样原问题的解为:这样原问题的解为:)().(21),(1liiCwww).(21)(1,1jijijljiiliixxyyaaaaWliCai
12、,2,1,0 01iliiyaiiliixayw18.4 核函数核函数n支持向量机的关键在于核函数。n低维空间向量集通常难于划分,解决的方法是将它们映射到高维空间,但这个办法带来的困难就是计算复杂度的增加,而核函数正好巧妙地解决了这个问题。n只要选用适当的核函数,我们就可以得到高维空间的分类函数。n在SVM理论中,采用不同的核函数将导致不同的SVM算法。8.4 核函数核函数n首先定义映射 ,是输入空间,H是高维内积空间,称为特征空间,称为特征映射,然后在H中构造最优超平面。在特征空间中的学习过程同前面一样,对偶问题为:约束条件不变:HRd:dR)()(21)(1,1jijijljiiliixx
展开阅读全文