数据科学概论教学课件ch4.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据科学概论教学课件ch4.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 科学 概论 教学 课件 ch4
- 资源描述:
-
1、数据科学的统计原则引言引言美国国家科学院院士Bin Yu 教授在2014 年国际数理统计学会(Institute of Mathematical Statistics)的会长致辞中指出:数据科学是计算和统计思维的必然融合。引言引言Carmichael and Marron(2018)在 Data Science vs.Statistics:Two Cultures?一文中指出:Data science is the business of learning from data,which is traditionally the business of statistics.Data scie
2、nce,however,is often understood as a broader,task-driven and computationally-oriented version of statistics.引言引言优秀的数据科学方法应遵循三个统计原则:可重复原则(Reproducibility)可预测原则(Predictability)可计算原则(Computability)555可重复原则定义定义 可重复原则指:当数据或模型发生一定程度的扰动时,分析结果依然能够保持相对一致。导致统计结果出现扰动的因素包括两方面:分析数据的扰动 分析工具(或模型)的扰动数据扰动的来源数据扰动的来源数
3、据扰动主要来源于以下三个方面:原始数据的采集过程中的测量误差 数据清洗和整理过程中的扰动 抽样变异性统计推断统计推断为了理解抽样变异性,我们首先对统计推断中的几个基本概念进行回顾:总体 样本 抽样 统计量 抽样分布总体总体抽样与样本抽样与样本统计量统计量抽样变异性抽样变异性 由于抽样过程的随机性,研究者无法保证每一次抽取的样本是完全一样。这就会导致基于样本计算的统计量的取值在每一次抽样过程中具有变异性。抽样分布抽样分布抽样分布抽样分布抽样变异性的度量抽样变异性的度量 统计量的变异性 变量选择结果的变异性统计量的变异性统计量的变异性统计量的变异性统计量的变异性统计量的变异性统计量的变异性Boot
4、strap的具体操作如图所示:Bootstrap样本均值的真实分布与Bootstrap分布:n=20Bootstrap样本均值的真实分布与Bootstrap分布:n=50Bootstrap样本均值的真实分布与Bootstrap分布:n=100变量选择的稳定性变量选择的稳定性变量选择:纳入众多无关协变量的回归模型:模型复杂,容易产生过拟合 多重共线性,统计推断失效 湮没真正重要的协变量的影响,解释性差 从众多协变量中筛选出真正重要的变量的过程就是变量选择(variable selection)。变量选择的稳定性变量选择的稳定性变量选择结果的稳定性可以通过以下三种方式进行度量(Nan and Ya
5、ng,2014):序列不稳定性 Bootstrap 不稳定性 扰动不稳定性变量选择的稳定性变量选择的稳定性序列不稳定性用于度量当样本量减小时,变量选择结果的稳定性。操作如下:首先基于完整样本选择出一个重要变量的集合;然后随机地从完整样本中删去部分样本,再重新进行变量选择;计算不完全样本所得到的重要变量的集合和基于所有样本得到的重要变量集合的对称差;将上述过程重复进行1000 次,求其平均值就可以得到序列不稳定性。变量选择的稳定性变量选择的稳定性变量选择的稳定性变量选择的稳定性变量选择的稳定性变量选择的稳定性 根据扰动不稳定性的计算原理,左图方法的不稳定性会高于右图方法的不稳定性。Bootstr
6、ap 组合方法组合方法抽样变异性的问题可以通过Bootstrap 得到一定程度的解决,有以下两种基本方法:Bagging算法 随机森林算法Bootstrap 组合方法组合方法Bootstrap 组合方法组合方法模型的扰动模型的扰动 统计推断需要对总体给予一定的假定:比如,在总体位置参数的推断中,我们假定总体服从正态分布;又如,在回归模型中,我们假定误差项服从正态分布。模型的扰动是为了探究当总体分布或模型偏离于原定的假设时数据分析结果的变化。分析结果的变化较小的方法具有稳健性。模型的扰动模型的扰动 比如,在回归模型中,当误差项分布并不是正态分布,存在一些极端值,那么这个时候普通最小二乘估计就会受
展开阅读全文