大数据探索性分析版课件第2章.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据探索性分析版课件第2章.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 探索 分析 课件
- 资源描述:
-
1、第二章 大数据背景下的抽样分析大数据时代是否需要抽样?数据越多信息越丰富,数据量尽多为好。大数据不是全样本,大数据也可能是有偏样本,怎么办?大数据分析和抽样并不矛盾。从效率和成本的角度考虑,适当和合理的抽样也是有必要的。就像两个极端,而我们总是要找到一个平衡点。“大样本=总体”的思想是错误的,理论上再大的局部抽样可能不如随机抽样有代表性。抽不抽样关键看你能不能实现全量运算或者接受实现它的代价。在分析阶段如果误差能够接受,占用空间小,速度快,完全可以抽样或近似。本章的主要内容 第1节 抽样调查的基础知识 第2节 数据集的相似性度量 第3节 概率抽样 第4节 非概率抽样 第5节 大数据抽样 第6节
2、 抽样分析的综合应用大数据抽样大数据时代是否需要抽样 正方观点:大数据时代仍然需要抽样 反方观点:大数据时代不需要抽样 中立观点:大数据时代是否需要抽样应该达权通变本书观点 由于受到计算资源和数据可获得性的限制,并非所有的研究都可以进行大数据分析,抽样调查仍是获取数据与分析数据的重要方式。使用大样本数据来代替总体还是使用抽样数据来推测总体特征取决于我们要解决的问题。以概括总体为目标,那么抽样往往是比较好的方式 以每个个体特征分析和应用为目的,这个时候使用大样本数据要好一些 在计算资源允许的情况下,抽样算法可以节约成本第1节 抽样调查的基础知识抽样调查的分类 按一定的概率依据随机原则抽取样本 每
3、个单元被抽中的概率是已知的或是可以计算出来的 利用样本对总体目标量进行估计时,要考虑到每个样本单元的入样概率概率抽样 抽取样本时不依据随机原则 条件不允许进行严格的随机抽样或需要快速的获得调查结果时,往往采用非概率抽样 存在选择偏差且没有抽样框,样本信息一般无法直接用于估计总体的数量特征非概率抽样抽样调查的作用 降低调查成本,节约调查费用。耗时较短,时效性强。可以承担全面调查无法胜任的调查项目。有助于提高调查数据的质量。第2节 数据集的相似性度量相似性度量 抽取的样本代表性越好,抽样数据与全部观测数据集的结构越相似,基于抽样数据分析的结果也越接近于基于全部观测数据分析的结果。样本质量和样本容量
4、是衡量抽样样本代表性的两个重要标准。样本质量样本质量 设S为按照特定的抽样方法从D中抽取的样本数据,其频率分布表为那么,我们定义样本质量关于样本质量样本容量 样本容量指样本数据中包含的观测值个数 平均意义而言,样本容量越大,其包含的整体数据信息就越多,样本质量也越高 在高位的样本容量上,其边际效用往往较低,当样本容量增加到一定程度时,其带来的样本质量的增长较为有限 达到一定样本质量要求最小样本容量,我们称之为在该精度要求下的最优样本容量 获得最优样本容量的近似值样本容量对平均样本质量曲线假设整体数据集 D包含N个观测:案例:简单随机抽样和分层抽样样本质量比较 简单随机抽样 分层抽样哪幅图样本质
5、量随样本容量上升更快?两幅图共性有哪些?哪幅图样本质量随样本容量上升更快?两幅图共性有哪些?第3节 概率抽样概率抽样基本概述 抽样的目的:通过对样本统计量的描述,推断总体的特征。概率抽样主要基于以下两点:-按一定概率以随机原则抽取样本,换言之,保证每一个总体中的个体是否入选样本是独立随机事件 -每个个体被抽中的概率是已知且可以被计算的 常用概率抽样:简单随机抽样分层抽样整群抽样系统抽样不等概抽样多阶段抽样二重抽样简单随机抽样简单随机抽样分层抽样分层抽样分层抽样整群抽样整群抽样系统抽样 定义:设总体中N个单元按某种顺序排列,编号为1,2,.,N。抽样时首先抽取一个或一组起始单元的编号,然后按照某
6、种和起始编号有关的规则确定其余入样单元编号,直到抽满n个为止。常见的为等距系统抽样,即按照简单随机抽样方式抽取一个起始编号,固定间隔k抽取其余编号,抽满n个为止。估计量对于等距系统抽样系统抽样多阶段抽样 多阶段抽样是指分多个阶段抽取到最终的样本。首先将总体分为若干个初级单元(PSU),再在抽取的初级单元中抽取若干个二级单元(SSU),以此类推。每一阶段都可以采用不同的抽样方法。整群抽样和系统抽样都可以看成多阶段抽样的特例。估计量初级单元规模相等:总体均值的估计初级单元规模不等 简单估计 比率估计不等概率抽样 当总体单元差异较大时,可以赋予每个单元与其规模或辅助变量成比例的入样概率,在估计时采用
7、权数来进行弥补。这种抽样方法称为不等概率抽样。PPS抽样:放回的与规模大小成比例的概率抽样 总体均值估计量:PS抽样:不放回的与规模大小成比例的概率抽样 总体均值估计量二重抽样二重抽样案例分析 R语言base包中自带的函数sample只能解决简单随机抽样的问题 安装加载sampling包,其中的函数可以解决绝大多数概率抽样的问题,包括不同抽样方法和估计量:help(package=sampling)R语言与概率抽样sampling包的简单操作 简单随机抽样 -srswor -srswrsrswor为不放回抽样,放回的简单随机抽样函数为srswr,但不加说明的情况下,简单随机抽样指不放回的抽样,
8、例如:srsp=srswor(n,N)#简单随机抽样 srs=getdata(wind,srsp)#得到样本另外,srswor1是sampling包中提供的另外一种不放回抽样的方法,使用选择排除(selection-rejection)的算法实现不放回抽样,被一些学者认为是实现不放回抽样的最佳算法。二重抽样即把简单抽样运用两遍,以获取分层信息或比率信息,很容易理解注意:注意:n指定样本容量,指定样本容量,N指定总体指定总体 getdata函数是一个索引的封装函数,函数是一个索引的封装函数,可以直接得到样本,左边是可以直接得到样本,左边是wind数数据集的样本据集的样本R语言与概率抽样sampl
9、ing包的简单操作 分层抽样 -stratasrp=strata(data=windo,stratanames=year,size=wh,method=srswor)#分层抽样以上代码是一个分层抽样的具体stratanames是用于分层的变量,为类别变量size是每层的权重method是层内抽样的方法关键点:构建层的抽样框,即确定分层变量抽取的顺序,数据须以分层变量升序排列,保证,分层变量与每层的相应权重对应。上面的例子,层的抽样框构建如下:分层抽样attach(wind)for(i in 1:N)if(windi,2201000&windi,2201100&windi,2201200&win
展开阅读全文