大数据挖掘与统计机器完整版课件全套ppt教学教程-最全电子讲义.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据挖掘与统计机器完整版课件全套ppt教学教程-最全电子讲义.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 挖掘 统计 机器 完整版 课件 全套 ppt 教学 教程 电子 讲义
- 资源描述:
-
1、大数据挖掘与统计机器学习大数据挖掘与统计机器学习 吕晓玲、宋捷(2016),大数据挖掘与统计机器学习,中国人民大学出版社第一章:概述第二章:线性回归方法第三章:线性分类方法第四章:模型评价与选择第五章:决策树与组合方法第六章:神经网络与深度学习第七章:支持向量机第八章:聚类分析第九章:推荐系统第十章:大数据案例分析R、Python上机实践大数据案例分析大数据案例分析:单机及分布式实现单机及分布式实现1主要参考书主要参考书Hastie,Tibshirani,Friedman(2008),The Elements of Statistical Learning Data Mining,Infere
2、nce and Prediction,Second Edition,SpringerJames,Witten,Hastie and Tibshirani(2013),An Introduction to Statistical Learning with Applications in R,SpringerHastie,Tibshirani,and Wainwright(2015),Statistical Learning with Sparsity The Lasso and Generalizations,CRC Press23第第1 1章章 概述概述1.统计学统计学 统计学是一门科学统计
3、学是一门科学,应该是以分析数据、解决问题为导向,不断的提出新方法,并探讨其理论性质。2.2.数据智慧数据智慧 郁彬(2016),数据科学中的数据智慧,中国计算机学会通讯(中译稿)将统计学核心部分重新定义为将统计学核心部分重新定义为“数据智慧数据智慧”非常必要非常必要,因为它比“应用统计学”这个术语起到更好的概括作用。“数据智慧”是将领域知识、数学和方法论与经验、理解、常识、洞察力以及良好的判断力相结合,思辨性地理解数据并依据数据做决策的一种能力。十个基本问题十个基本问题(1)要回答的问题(2)数据收集(3)数据的含义(4)相关性(5)问题的转化(6)可比性:数据变换(7)可视化(8)随机性:数
4、据的代表性、结果的不确定性(9)稳定性:结果的可解释性、可重复性(10)结果验证4第第2 2章章 线性回归方法线性回归方法2.1 2.1 多元线性回归多元线性回归(1)多元线性回归模型及其矩阵表示(2)最小二乘估计及其性质 最小方差线性无偏估计(BLUE)(3)变量选择方法 前进法、后退法和逐步回归法 ppxxy1105 XYYXXXTT1-62.2 2.2 压缩方法压缩方法:岭回归与岭回归与LassoLasso 2.2.1 岭回归 岭回归最初提出是为了解决回归中的多重共线性问题,也就是 不满秩,不是正定矩阵的情形。这时有学者提出给 加上一个正常数矩阵kI(k0),那么 。其中,k是一个待估参
5、数,需要使用一些方法来决定。岭估计的性质:岭估计是有偏估计,但存在k0使得岭回归的均方误差小于最小二乘估计的均方误差。岭回归的系数估计值的绝对值小于最小二乘估计的绝对值。因此称岭回归为一种压缩估计。XXTXXT YXkIXXkTTridge17另一种角度看待岭回归:现代统计从损失函数加罚的角度看待岭回归,可以证明岭回归等价于在最小二乘估计的基础上对估计值的大小增加一个约束(也叫惩罚,有时也称为正则化)。注意,这里只对自变量的系数施加了约束,并没有考虑截距项 。一般可以通过数据中心化(因变量减去自身均值)消除 的作用。上式称为的岭回归估计,其中,k称为岭参数。k=0时(此时对应t=)的岭回归估计
6、 就是普通的最小二乘估计。岭参数k不是唯一确定的,所以得到的岭回归估计 实际是回归参数的一个估计族。0nipjjpjjijiridgetxy112210,minarg满足条件0 0ridge kridge8 2.2.2 Lasso Lasso回归(Tibshirani,1996)和岭回归类似(但又有着很重要的不同),是另一种压缩估计。与岭回归很重要的不同是,它在参数估计的同时既可以对估计值进行压缩,又可以让一些不重要的变量的估计值恰好为零,从而起到自动进行变量选择的功能。Lasso回归等价于在最小二乘估计的基础上对估计值的大小增加一个不同于岭回归的约束(惩罚):注意:范数的概念是线性空间中向量
7、长度概念的推广。nipjjpjjijilassotxy11210,minarg满足条件9 2.2.3 一张图看懂岭回归和Lasso回归 岭回归和Lasso回归中的参数k或称为调节参数,需要估计。实际上不同的调节参数的取值对应不同的模型。因此,可以把调节参数的估计看成模型选择问题。102.3 Lasso2.3 Lasso模型的求解与理论性质模型的求解与理论性质 2.2.3.1 解Lasso Lasso问题是一个凸优化问题,是一个平方损失加凸惩罚的优化问题。单变量Lasso目标函数:解析解:其中,11NiiiRzyNp1221minyzNS,1 xxsignxS 12Nijjkkjijjkkiki
8、xxyN12211314 2.3.3 SCAD回归与Oracle性质 Fan and Li(2001)从惩罚函数的角度出发,认为一个好的惩罚函数应使得模型中的解具有以下三个理论性质:(1)无偏性:当未知参数真值较大时,估计值应该几乎无偏。(2)稀疏性:有某个阈值准则自动将较小的估计系数降至0,以降低模型复杂度。(3)连续性:为避免模型在预测时的不稳定性,估计值应该是最小二乘估计值的某种连续函数。1516 Fan and Li(2001)证明,SCAD回归在一定条件下满足神谕性(oracle property),即SCAD估计的表现与真实模型已知时(假定已知真实模型中参数为零的系数)的表现一样好
9、,也就是说,SCAD估计能准确地进行变量选择。17182.4.2 最小一乘回归与分位回归192.4.3 其他罚函数Grouped Lasso弹性网惩罚20第第3 3章章 线性分类方法线性分类方法21 3.1.2 评价准则 混淆矩阵、准确率、召回率。2223243.2.3 正则化的Logistic回归 变量选择普通逐步回归L1正规化逻辑回归模型(Lasso-LR)25pjjniiTiTixxy1100exp1lnmin26kkf KlllkkxfxfxXkY1|Pr kkTkkpkxxxf12/12/21exp21kk27 3.3.2 二次判别函数和正则化判别函数 假设各个类别的 不相等,关于x
10、的二次项保留在公式中。我们得到的二次判别函数(quadratic discriminant analysis,QDA)为:Friedman(1989)提出一个将LDA和QDA结合的方法,假定将QDA不同类别不同的方差压缩到和LDA相同的方差。这和上一部分介绍的压缩方法相似。具体来讲,正则化的方差协方差矩阵有如下形式:式中,是LDA中假定的统一的方差;表示一系列介于LDA和QDA之间的模型,实际应用中,使用下一部分将要介绍的交叉验证等方法估计。28 kkkTkkkxxxlog21log211k 1kk1,0293031第第4 4章章 模型评价与选择模型评价与选择32模型复杂度与模型预测误差之间的
11、关系:随着模型复杂度的增加,测试误差先下降,后升高(此时模型过拟合),不论是欠拟合还是过拟合,模型推广预测的能力都差。因此存在一个中等复杂度的模型使得期望测试误差达到最小,我们的目标就是找到这个最优模型。33340200|xXxfYxErr xfY 2,0Var xf2200200 xfExfxfxf2002xfVarxfBias 0 xfE 0 xf 0 xf 0 xf 0 xf353637pC382_2nperrCp2pCpC 4.2.2 AIC准则 AIC与 近似但应用更广泛,它是基于负对数似然损失的。它的一般公式是:与 相比,上式等号右边第一项是负对数似然损失,第二项是对模型参数个数(
12、模型复杂度)的惩罚。使用AIC选择模型,我们选取AIC取值最小的那个,对于非线性或者更复杂的模型,要用衡量模型复杂度的值代替p。39 pLAIC2log2pCpC 4.2.3 BIC准则 BIC准则与AIC相似,都是用于最大化似然函数的拟合。BIC的一般公式为:式中,L是似然函数;是参数 的最大似然估计量;p是参数的个数。BIC统计量乘以1/2也叫做施瓦兹准则。可以看出BIC与AIC非常类似,只是把AIC中的2换成了 。当 时,BIC对复杂模型的惩罚更大,更倾向于选取简单的模型。使用BIC选择模型,我们选取BIC取值最小的那个模型。40 npLBICloglog2nlog4.72 en41 n
13、iiikixfyLnfCV1,1 xfk42,xfk niikixfyLnfCV1,1,xf43444546五、决策树与组合方法五、决策树与组合方法5.1.5.1.决策树决策树 5.1.1 决策树的基本知识 常用算法ID3C4.5CART 核心归纳算法47二分类示意需要说明的一些问题 1.二叉树还是多叉树 2.自变量的进一步处理 3.其他的决策树算法 4.决策树的一些问题53 5.2.4 讨论 Bagging算法在基预测器不稳定的情况下很有用,而当基预测器稳定时,Bagging算法并不有效。Bagging算法可以让好的分类器(错分率e0.5)效果更坏。对于回归问题,M的值可以取得小一些,对于分
14、类问题,尤其是当y的类别比较多的时候,M的取值应该大一些。每次进行Bootstrap抽样时,我们选择的样本量都等于原始训练集的样本量n。当提高Bootstrap抽样样本量的个数至2n后,大约有14%的样本点没有被抽中,但是Bagging算法的精度并没有提高。如果从偏差方差分解的角度理解Bagging算法,它可以提高不稳定基预测器的预测精度,实质上是减小了预测的方差(variance),但并没有降低偏差(bias)。所以通常Bagging不剪枝的决策树。57585.3.2 可加模型:从统计的角度看Adaboost 各种理论解释 偏差-方差分解 减小偏差,boosting树桩或者很小的树 提升边际
15、 博弈论 可加模型 可以证明二分类AdaBoost算法是最小化指数损失L(y,f(x)=exp(-yf(x)的分步向前可加模型 y取值+1或-1596263六、神经网络与深度学习六、神经网络与深度学习6.1.6.1.神经网络神经网络 6.1.1 人工神经元的模型 (1)生物神经元6468神经元的常用激活函数 6.1.2 人工神经网络的结构 (1)前向网络 前向网络中神经元是分层排列的,每层神经元只接收来自前一层神经元的输入信号,并将信号处理后输出至下一层,网络中没有任何回环和反馈。前向网络的层按功能可分为输入层、隐层和输出层。(2)反馈网络 反馈网络又称递归网络、回归网络,它和前向网络的区别在
16、于它至少有一个反馈环,形成封闭回路,即反馈网络中至少有一个神经元将自身的输出信号作为输入信号反馈给自身或其他神经元。6.1.3 人工神经网络的学习 (1)学习方式 有监督学习(有导师学习)无监督学习(无导师学习)强化学习(2)学习规则 误差纠正学习规则 Hebb学习规则 6.1.4 感知机 感知器神经网络是一种典型的前向神经网络,具有分层结构,信息从输入层进入网络并逐层向前传递至输出层。(1)单层感知器(2)多层感知器 由于单层感知器只能处理线性可分的数据,而现实世界中的数据大多不是线性可分的,因此相关研究者提出在单层感知器的输入层和输出层之间增加一个或多个隐层,由此构成多层感知器,也称为多层
17、前向神经网络。反向传播算法(Back Propagation Algorithm,简称BP算法):BP算法由信号的正向传播与误差的反向传播两部分组成。在正向传播过程中,信号由网络的输入层经隐层逐层传递至输出层,得到网络的实际输出。若此实际输出与期望输出不一致,则转入误差反向传播阶段。在反向传播阶段,将输出误差经由隐层向输入层反传,从而获得各层各单元的误差信号,依此信号对网络连接权值进行调整。反复执行信号的正向传播与误差的反向传播这两个过程,直至网络输出误差小于预先设定的阈值,或进行到预先设定的学习次数为止。BP网络的输入层与输出层的节点数依据所处理的任务确定后,还需确定隐层数和隐层节点数。确定
展开阅读全文