统计学习StatisticalLearning-PPT精品课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计学习StatisticalLearning-PPT精品课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 学习 StatisticalLearning PPT 精品 课件
- 资源描述:
-
1、统计学习统计学习 Statistical LearningStatistical Learning史忠植史忠植中国科学院计算技术研究所中国科学院计算技术研究所高级人工智能高级人工智能第八章2022-7-24Chap8 SL Zhongzhi Shi2内容提要内容提要n统计学习方法概述统计学习方法概述n统计学习问题统计学习问题n学习过程的泛化能力学习过程的泛化能力n支持向量机支持向量机nSVMSVM寻优算法算法n极限学习机极限学习机n应用应用2022-7-24Chap8 SL Zhongzhi Shi3统计学习方法概述统计学习方法概述 统计方法是从事物的外在数量上的表现去推断该事物可统计方法是从
2、事物的外在数量上的表现去推断该事物可能的规律性。能的规律性。科学规律性的东西一般总是隐藏得比较深,科学规律性的东西一般总是隐藏得比较深,最初总是从其数量表现上通过统计分析看出一些线索,最初总是从其数量表现上通过统计分析看出一些线索,然后提出一定的假说或学说,作进一步深入的理论研究。然后提出一定的假说或学说,作进一步深入的理论研究。当理论研究当理论研究 提出一定的结论时,往往还需要在实践中加提出一定的结论时,往往还需要在实践中加以验证。就是说,观测一些自然现象或专门安排的实验以验证。就是说,观测一些自然现象或专门安排的实验所得资料,是否与理论相符、在多大的程度上相符、偏所得资料,是否与理论相符、
3、在多大的程度上相符、偏离可能是朝哪个方向等等问题,都需要用统计分析的方离可能是朝哪个方向等等问题,都需要用统计分析的方法处理。法处理。2022-7-24Chap8 SL Zhongzhi Shi4统计学习方法概述统计学习方法概述 近百年来,统计学得到极大的发展。我们可用下近百年来,统计学得到极大的发展。我们可用下面的框架粗略地刻划统计学发展的过程:面的框架粗略地刻划统计学发展的过程:n1900-1920 数据描述数据描述n1920-1940 统计模型的曙光统计模型的曙光n1940-1960 数理统计时代数理统计时代n随机模型假设的挑战随机模型假设的挑战n松弛结构模型假设松弛结构模型假设n199
4、0-2019 建模复杂的数据结构建模复杂的数据结构2022-7-24Chap8 SL Zhongzhi Shi5统计学习方法概述统计学习方法概述 从从1960年至年至1980年间,统计学领域出现了一场革命,要从年间,统计学领域出现了一场革命,要从观测数据对依赖关系进行估计,只要知道未知依赖关系所观测数据对依赖关系进行估计,只要知道未知依赖关系所属的函数集的某些一般的性质就足够了。引导这一革命的属的函数集的某些一般的性质就足够了。引导这一革命的是是60年代的四项发现:年代的四项发现:nTikhonov,Ivanov 和和 Philips 发现的关于解决不适定问题的发现的关于解决不适定问题的正则化
5、原则;正则化原则;nParzen,Rosenblatt 和和Chentsov 发现的非参数统计学;发现的非参数统计学;nVapnik 和和Chervonenkis 发现的在泛函数空间的大数定律,发现的在泛函数空间的大数定律,以及它与学习过程的关系;以及它与学习过程的关系;nKolmogorov,Solomonoff 和和Chaitin 发现的算法复杂性及发现的算法复杂性及其与归纳推理的关系。其与归纳推理的关系。这四项发现也成为人们对学习过程研究的重要基础。这四项发现也成为人们对学习过程研究的重要基础。2022-7-24Chap8 SVM Zhongzhi Shi6统计学习方法概述统计学习方法概
6、述 统计学习方法统计学习方法:n传统方法传统方法:统计学在解决机器学习问题中起着基础性统计学在解决机器学习问题中起着基础性的作用。传统的统计学所研究的主要是渐近理论,的作用。传统的统计学所研究的主要是渐近理论,即当样本趋向于无穷多时的统计性质。统计方法主即当样本趋向于无穷多时的统计性质。统计方法主要考虑测试预想的假设和数据模型拟合。它依赖于要考虑测试预想的假设和数据模型拟合。它依赖于显式的基本概率模型。显式的基本概率模型。n模糊集模糊集n粗糙集粗糙集n支持向量机支持向量机2022-7-24Chap8 SVM Zhongzhi Shi7统计学习方法概述统计学习方法概述 统计方法处理过程可以分为三
7、个阶段:统计方法处理过程可以分为三个阶段:n(1)搜集数据:采样、实验设计)搜集数据:采样、实验设计n(2)分析数据:建模、知识发现、可视化)分析数据:建模、知识发现、可视化n(3)进行推理:预测、分类)进行推理:预测、分类 常见的统计方法有常见的统计方法有:回归分析(多元回归、自回归等)回归分析(多元回归、自回归等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)判别分析(贝叶斯判别、费歇尔判别、非参数判别等)聚类分析(系统聚类、动态聚类等)聚类分析(系统聚类、动态聚类等)探索性分析(主元分析法、相关分析法等)等。探索性分析(主元分析法、相关分析法等)等。2022-7-24Chap8 SVM
8、 Zhongzhi Shi8支持向量机支持向量机nSVMSVM是一种基于统计学习理论的机器学是一种基于统计学习理论的机器学习方法,它是由习方法,它是由Boser,Guyon,VapnikBoser,Guyon,Vapnik在在COLT-92COLT-92上首次提出,从此迅速发展起上首次提出,从此迅速发展起来来nVapnik V N.2019.The Nature of Statistical Vapnik V N.2019.The Nature of Statistical Learning Theory.Springer-Verlag,New York Learning Theory.Spr
9、inger-Verlag,New York nVapnik V N.2019.Statistical Learning Vapnik V N.2019.Statistical Learning Theory.Wiley-Interscience Publication,John Theory.Wiley-Interscience Publication,John Wiley&Sons,IncWiley&Sons,Incn目前已经在许多智能信息获取与处理领目前已经在许多智能信息获取与处理领域都取得了成功的应用。域都取得了成功的应用。2022-7-24Chap8 SVM Zhongzhi Shi9
10、学习问题研究的四个阶段学习问题研究的四个阶段nRosenblatt 感知器(感知器(60年代)。年代)。n学习理论基础的创立(学习理论基础的创立(60-70年代)年代)经验风险最小,算法复杂性经验风险最小,算法复杂性n神经网络(神经网络(80年代)年代)PACn回到起点(回到起点(90年代)年代)多层感知器多层感知器2022-7-24Chap8 SVM Zhongzhi Shi10统计学习理论统计学习理论n统计学习理论是小样本统计估计和预测学习的统计学习理论是小样本统计估计和预测学习的最佳理论。最佳理论。n假设输出变量假设输出变量Y与输入变量与输入变量X之间存在某种对之间存在某种对应的依赖关系
11、应的依赖关系,即一未知概率分布即一未知概率分布P(X,Y),P(X,Y)反映了某种知识。学习问题可以概括为反映了某种知识。学习问题可以概括为:根据根据l个独立同分布个独立同分布(independently drawn and identically distributed)的观测样本的观测样本train set,(x1,y1),(x2,y2),(xn,yn)2022-7-24Chap8 SVM Zhongzhi Shi11函数估计模型函数估计模型n学习样本的函数学习样本的函数:n产生器产生器(G)(G)产生随机向量产生随机向量x x R Rn n,它们是从固它们是从固定但未知的概率分布函数定但
12、未知的概率分布函数F F(x x)中独立抽取的。中独立抽取的。n训练器训练器Supervisor(S)Supervisor(S)对每个输入向量对每个输入向量x x 返返回一个输出值回一个输出值y y,产生输出的根据是同样固定,产生输出的根据是同样固定 但未知的条件分布函数但未知的条件分布函数 F F(y|xy|x)n学习机学习机Learning Machine(LM)Learning Machine(LM)它能够实现它能够实现一定的函数集一定的函数集f f(x x,),其中其中 是参数是参数的集合。的集合。GSLMxyy关键概念关键概念:学习的问题就是从给定的函数集学习的问题就是从给定的函数集
13、f(x,),中选择出能够最中选择出能够最好地逼近训练器响应的函数。这种选择是基于训练集的,训练集由根据联好地逼近训练器响应的函数。这种选择是基于训练集的,训练集由根据联合分布合分布F(x,y)=F(x)F(y|x)抽取出的抽取出的l l个独立同分布个独立同分布(i.i.d)观测观测 (x1,y1),(x2,y2),(xn,yn)组成组成2022-7-24Chap8 SVM Zhongzhi Shi12期望风险期望风险 学习到一个假设学习到一个假设H=f(x,w)H=f(x,w)作为预测函数作为预测函数,其中其中w w是广义参是广义参数数.它对它对F(X,Y)F(X,Y)的期望风险的期望风险R(
14、w)R(w)是是(即统计学习的实际风即统计学习的实际风险险):其中,f(x,w)称作预测函数集,w为函数的广义参数。f(x,w)可以表示任何函数集。L(y,f(x,w)为由于用f(x,w)对y进行预测而造成的损失。不同类型的学习问题有不同形式的损失函数。()(,(,)(,)R wL y f x wdF x y2022-7-24Chap8 SVM Zhongzhi Shi13 而对train set上产生的风险Remp(w)被称为经验风险(学习的训练误差):,11()(,)lempiiiRwL y fxwl 首先Remp(w)和R(w)都是w的函数,传统概率论中的定理只说明了(在一定条件下)当样
15、本趋于无穷多时Remp(w)将在概率意义上趋近于R(w),却没有保证使Remp(w)最小的点也能够使R(w)最小(同步最小)。经验风险经验风险2022-7-24Chap8 SVM Zhongzhi Shi14 根据统计学习理论中关于函数集的推广性的界的结论,对于两类分类问题中的指示函数集f(x,w)的所有函数(当然也包括使经验风险员小的函数),经验风险Remp(w)和实际风险R(w)之间至少以不下于1-(01)的概率存在这样的关系:)/()()(lhwRwRemp经验风险经验风险2022-7-24Chap8 SVM Zhongzhi Shi15lhlhlh)4/ln()1/2(ln()/(h是
16、函数H=f(x,w)的VC维,l是样本数.VCVC维维(Vapnik-Chervonenkis Dimension)(Vapnik-Chervonenkis Dimension)。模式识别方法。模式识别方法中中VCVC维的直观定义是:对一个指示函数集,如果存在维的直观定义是:对一个指示函数集,如果存在h h个个样本能够被函数集里的函数按照所有可能的样本能够被函数集里的函数按照所有可能的2h2h种形式分开,种形式分开,则称函数集能够把则称函数集能够把h h个样本打散。函数集的个样本打散。函数集的VCVC维就是它能维就是它能打散的最大样本数目打散的最大样本数目h h。VCVC维维2022-7-24
17、Chap8 SVM Zhongzhi Shi16 一般的学习方法(如神经网络)是基于 Remp(w)最小,满足对已有训练数据的最佳拟和,在理论上可以通过增加算法(如神经网络)的规模使得Remp(w)不断降低以至为0。但是,这样使得算法(神经网络)的复杂度增加,VC维h增加,从而(h/l)增大,导致实际风险R(w)增加,这就是学习算法的过拟合(Overfitting).过学习过学习2022-7-24Chap8 SVM Zhongzhi Shi17过学习过学习Overfitting and underfittingProblem:how rich class of classifications
18、q(x;)to use.underfittingoverfittinggood fitProblem of generalization:a small emprical risk Remp does not imply small true expected risk R.2022-7-24Chap8 SVM Zhongzhi Shi18学习理论的四个部分学习理论的四个部分1.学习过程的一致性理论学习过程的一致性理论What are(necessary and sufficient)conditions for consistency(convergence of Remp to R)of
19、a learning process based on the ERM Principle?2.学习过程收敛速度的非渐近理论学习过程收敛速度的非渐近理论How fast is the rate of convergence of a learning process?3.控制学习过程的泛化能力理论控制学习过程的泛化能力理论How can one control the rate of convergence(the generalization ability)of a learning process?4.构造学习算法的理论构造学习算法的理论 How can one construct al
20、gorithms that can control the generalization ability?2022-7-24Chap8 SVM Zhongzhi Shi19结构风险最小化归纳原则结构风险最小化归纳原则(SRM)nERM is intended for relatively large samples(large l/h)nLarge l/h induces a small which decreases the the upper bound on risknSmall samples?Small empirical risk doesnt guarantee anything
21、!we need to minimise both terms of the RHS of the risk boundsnThe empirical risk of the chosen 1.An expression depending on the VC dimension of 2022-7-24Chap8 SVM Zhongzhi Shi20结构风险最小化归纳原则结构风险最小化归纳原则(SRM)nThe Structural Risk Minimisation(SRM)PrinciplenLet S=Q(z,),.An admissible structure S1S2SnS:nFo
22、r each k,the VC dimension hk of Sk is finite and h1h2hnhSnEvery Sk is either is non-negative bounded,or satisfies for some(p,k)supkQpz,dF z 1pR k,p 22022-7-24Chap8 SVM Zhongzhi Shi21nThe SRM Principle continuednFor given z1,zl and an admissible structure S1S2Sn S,SRM chooses function Q(z,lk)minimisi
23、ng Remp in Sk for which the guaranteed risk(risk upper-bound)is minimalnThus manages the unavoidable trade-off of quality of approximation plexity of approximationS1S2Snhh1hnh*结构风险最小化归纳原则结构风险最小化归纳原则(SRM)2022-7-24Chap8 SVM Zhongzhi Shi22 Sn S*经验风险经验风险Empirical risk置信范围置信范围Confidence interval风险界限风险界限B
24、ound on the riskh1h*hnhS1S*Sn结构风险最小化归纳原则结构风险最小化归纳原则 (SRM)2022-7-24Chap8 SVM Zhongzhi Shi23支持向量机支持向量机 SVMnSVMs are learning systems that nuse a hyperplane of linear functionsnin a high dimensional feature space Kernel functionntrained with a learning algorithm from optimization theory LagrangenImplem
25、ents a learning bias derived from statistical learning theory Generalisation SVM is a classifier derived from statistical learning theory by Vapnik and Chervonenkis2022-7-24Chap8 SVM Zhongzhi Shi24 线性分类器线性分类器yestf xf(x,w,b)=sign(w.x-b)denotes+1denotes-1How would you classify this data?2022-7-24Chap8
展开阅读全文