数据科学概论教学课件ch4.pptx

上传人（卖家）：晟晟文业

文档编号：4105523

上传时间：2022-11-11

格式：PPTX

页数：69

大小：5.76MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数据科学概论教学课件ch4.pptx》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据科学概论教学课件 ch4

资源描述：: 1、数据科学的统计原则引言引言美国国家科学院院士Bin Yu 教授在2014 年国际数理统计学会（Institute of Mathematical Statistics）的会长致辞中指出：数据科学是计算和统计思维的必然融合。引言引言Carmichael and Marron(2018)在 Data Science vs.Statistics:Two Cultures?一文中指出：Data science is the business of learning from data,which is traditionally the business of statistics.Data scie
2、nce,however,is often understood as a broader,task-driven and computationally-oriented version of statistics.引言引言优秀的数据科学方法应遵循三个统计原则：可重复原则（Reproducibility）可预测原则（Predictability）可计算原则（Computability）555可重复原则定义定义可重复原则指：当数据或模型发生一定程度的扰动时，分析结果依然能够保持相对一致。导致统计结果出现扰动的因素包括两方面：分析数据的扰动分析工具（或模型）的扰动数据扰动的来源数据扰动的来源数
3、据扰动主要来源于以下三个方面：原始数据的采集过程中的测量误差数据清洗和整理过程中的扰动抽样变异性统计推断统计推断为了理解抽样变异性，我们首先对统计推断中的几个基本概念进行回顾：总体样本抽样统计量抽样分布总体总体抽样与样本抽样与样本统计量统计量抽样变异性抽样变异性由于抽样过程的随机性，研究者无法保证每一次抽取的样本是完全一样。这就会导致基于样本计算的统计量的取值在每一次抽样过程中具有变异性。抽样分布抽样分布抽样分布抽样分布抽样变异性的度量抽样变异性的度量统计量的变异性变量选择结果的变异性统计量的变异性统计量的变异性统计量的变异性统计量的变异性统计量的变异性统计量的变异性Boot
4、strap的具体操作如图所示:Bootstrap样本均值的真实分布与Bootstrap分布：n=20Bootstrap样本均值的真实分布与Bootstrap分布：n=50Bootstrap样本均值的真实分布与Bootstrap分布：n=100变量选择的稳定性变量选择的稳定性变量选择：纳入众多无关协变量的回归模型：模型复杂，容易产生过拟合多重共线性，统计推断失效湮没真正重要的协变量的影响，解释性差从众多协变量中筛选出真正重要的变量的过程就是变量选择（variable selection）。变量选择的稳定性变量选择的稳定性变量选择结果的稳定性可以通过以下三种方式进行度量(Nan and Ya
5、ng,2014)：序列不稳定性 Bootstrap 不稳定性扰动不稳定性变量选择的稳定性变量选择的稳定性序列不稳定性用于度量当样本量减小时，变量选择结果的稳定性。操作如下：首先基于完整样本选择出一个重要变量的集合；然后随机地从完整样本中删去部分样本，再重新进行变量选择；计算不完全样本所得到的重要变量的集合和基于所有样本得到的重要变量集合的对称差；将上述过程重复进行1000 次，求其平均值就可以得到序列不稳定性。变量选择的稳定性变量选择的稳定性变量选择的稳定性变量选择的稳定性变量选择的稳定性变量选择的稳定性根据扰动不稳定性的计算原理，左图方法的不稳定性会高于右图方法的不稳定性。Bootstr
6、ap 组合方法组合方法抽样变异性的问题可以通过Bootstrap 得到一定程度的解决，有以下两种基本方法：Bagging算法随机森林算法Bootstrap 组合方法组合方法Bootstrap 组合方法组合方法模型的扰动模型的扰动统计推断需要对总体给予一定的假定：比如，在总体位置参数的推断中，我们假定总体服从正态分布；又如，在回归模型中，我们假定误差项服从正态分布。模型的扰动是为了探究当总体分布或模型偏离于原定的假设时数据分析结果的变化。分析结果的变化较小的方法具有稳健性。模型的扰动模型的扰动比如，在回归模型中，当误差项分布并不是正态分布，存在一些极端值，那么这个时候普通最小二乘估计就会受
7、到较大的影响。模型扰动的度量模型扰动的度量模型扰动的度量模型扰动的度量稳健估计稳健估计*363636可预测原则定义定义过拟合过拟合导致可预测性不良的原因之一。交叉验证法（Cross Validation）可以用来避免过拟合，提升可预测能力。交叉验证交叉验证交叉验证交叉验证保留交叉验证保留交叉验证k 折交叉验证将数据随机等分为k 份，使用其中一份作为测试集，剩余k 1 份作为测试集，并将上述过程重复k 次，每次使用不同的测试集。下图给出了k=5 的时候的示意图。保留交叉验证保留交叉验证留一交叉验证留一交叉验证留一交叉验证可看作k 折交叉验证的特例，将数据中的每一个样本轮流用于测试，其余的n
8、1 个样本轮流作为训练集。444444可计算原则定义定义狭义：模型或算法是否具备可计算性。广义：数据分析的整个过程（如数据清洗、预处理）中的计算问题等。大数据时代的数据特征大数据时代的数据特征数据量大（大规模化）：比如互联网电子商务数据。数据的维数高（高维化）：比如人类基因组的SNP数据。大规模数据的处理方法大规模数据的处理方法分布式存储：Hadoop HDFS，Alluxio 并行计算：Hadoop，Spark 更多关于大规模数据的分布式存储与并行计算，可以参见第10 章。分布式存储分布式存储分布式存储是一种数据存储技术，通过网络使用企业中的每台机器上的磁盘空间，并将这些分散的存储资
9、源构成一个虚拟的存储设备，数据分散的存储在企业的各个角落。并行计算并行计算并行计算的基本思想是用多个处理器来协同求解同一问题，即将被求解的问题分解成若干个部分，各部分均由一个独立的处理机来并行计算。并行计算可分为时间上的并行和空间上的并行。时间上的并行就是指流水线技术，而空间上的并行则是指用多个处理器并发的执行计算。大规模数据的处理方法大规模数据的处理方法虽然基于分布式的存储及并行算法设计可以解决计算效率问题，但这类方法得出的结果只有在大规模数据是总体(或对总体有代表性)时才有意义。然而现实情况是即使大规模样本也不一定能够完全替代总体，反而会因为有偏部分的大样本量夸大局部作用而带来估计的
10、偏倚(林存洁et al.,2016)。因此，针对大规模数据的算法设计不仅要考虑算法的计算成本，还需要考虑如何刻画估计结果的不确定性以得到更为可靠的分析结果(Sengupta et al.,2016)。大规模数据的处理方法大规模数据的处理方法采用传统的自助法进行抽样时，传统的自助法中每一组经验样本平均包含原样本中63%的样本单元，属于同一计算数量级。因此，采用自助法分析大规模数据时不能有效降低计算复杂度。虽然研究者可以采用子集抽样自助法(Subsampling)降低抽样的计算量，但Samworth(2003)的研究发现子集抽样自助法对子样本的选择或者子样本的数量和大小十分敏感，说明子集抽样自
11、助法并不一定能得到稳定可靠的分析结果。Chang and Hall(2015)提出的快速双重自助法虽然可以同时提升运算效率与估计精度，但两次自助抽样的计算成本仍远高于传统自助法。大规模数据的处理方法大规模数据的处理方法本节重点介绍两种基于自助法思想的大规模数据抽样方法：小自助包算法(Bag of Little Bootstraps,BLB)子集双重自助算法(Subsampled Double Bootstrap,SDB)这两种方法能够通过针对子样本的自助法实现针对数据变异性的调整，在降低计算成本的同时实现数据变异性的还原，能够较好地度量出估计的不确定性。小自助包算法小自助包算法小自助包算法小自
12、助包算法小自助包算法小自助包算法小自助包算法子集双重自助算法子集双重自助算法子集双重自助算法子集双重自助算法子集双重自助算法子集双重自助算法子集双重自助算法子集双重自助算法子集双重自助算法高维数据的处理方法高维数据的处理方法降维方法：主成分分析线性判别分析变量选择方法：最优子集选择法正则化方法主成分分析主成分分析基本思想：构造原始变量的线性组合，形成低维的变量，并使低维变量最大程度地保持原始数据的方差信息主成分分析主成分分析线性判别分析线性判别分析基本思想：利用样本的类别信息找到数据的线性低维表示，使得低维表示最有利于对数据进行分类。线性判别分析线性判别分析最优子集选择最优子集选择正则化方法正则化方法正则化方法正则化方法Lasso进行变量选择的原理超高维数据的处理方法超高维数据的处理方法首先利用变量筛选(Screening)，将超高维数据集转化为高维数据集；筛选方法主要考察备选变量与响应变量之间的相关性：相关性强的留下，相关性弱的筛走；然后再利用已有的正则化方法对高维数据进行处理。

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据科学概论教学课件ch4.pptx
链接地址：https://www.163wenku.com/p-4105523.html

晟晟文业

内容提供者

实名认证

联系作者