书签 分享 收藏 举报 版权申诉 / 28
上传文档赚钱

类型统计学-数据的收集课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3225110
  • 上传时间:2022-08-08
  • 格式:PPT
  • 页数:28
  • 大小:1.27MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《统计学-数据的收集课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    统计学 数据 收集 课件
    资源描述:

    1、统计学StatisticsStatistics第第 2 2 章章 数据的收集数据的收集u 2.1 2.1 数据收集的主要方法数据收集的主要方法u 2.2 2.2 几种基本的抽样方法几种基本的抽样方法u 2.3 2.3 数据收集的误差数据收集的误差u 2.4 2.4 小结小结第第 2 2 章章 数据的收集数据的收集2.1 2.1 数据收集的主要方法数据收集的主要方法数据收集的主要方法数据收集的主要方法根据研究的目的和要求,采用科学的方法,有组织、有计划地收集数据信息资料的过程,称之为统计调查统计调查(statistical survey)。实践中,数据来源通常有两个主要渠道:一是直接进行调查或实

    2、验,获得“一手数据”;二是通过他人调查或实验的结果整理得到“二手数据”。数据收集的主要方法数据收集的主要方法在社会经济领域,专门调查是直接获取数据的重要手段,包括了一国政府组织的各种普查、抽样调查、统计报表制度等,也包括了企业、机构、部门甚至个人为了特定目的而进行的各种市场调查、产品测试、民意调研等。调查数据一般是客观上已经存在的,但需要通过观察或询问的方式才能收集汇总得到。显然,调查数据大多与时间有关,是特定时期或时点上的变量结果,因此,这类数据也会随着时间的变化而改变,理论上无法重复观察。数据收集的主要方法数据收集的主要方法此外,调查的对象通常以人为主体,即使调查对象是其他的客观事物(如一

    3、块土地),调查的结果(如产量)也往往与人的活动有关。这就使得要收集高质量的调查数据,必须将人为因素的干扰尽可能控制在最低限度,而这也恰恰是收集调查数据的难点所在。科学实验则是收集自然科学数据的常用手段。与调查数据不同,实验数据是在控制一个或多个因素的前提下,观察感兴趣的变量结果,实验的次数也可以是无限的,并且可以通过改变控制因素,观察变量结果的变化情况。数据收集的主要方法数据收集的主要方法相较于专门调查,通过科学实验收集数据在一定程度上能更为有效地控制数据质量,但也更加专业,受到的技术甚至法律、道德等因素的制约更多,从而应用的领域不及专门调查广泛。值得一提的是,随着计算机技术和电子商务的快速发

    4、展,很多数据被自动收集保存到特定的数据库当中,成为当今“大数据”的主要来源。如果能够根据研究目的,“量身定制”调查或实验方案,直接收集“一手数据”,当然是最好的。但对于大多数使用者来说,受各方面因素的限制,设计、实施一项调查或实验往往是不太现实的,能够获得的数据量也较为有限。因此,人们更多的是通过收集整理他人调查或实验的结果来间接获取“二手数据”。数据收集的主要方法数据收集的主要方法政府、企业、机构等公开出版或发布的数据,各类媒体公开报道的数据,都是十分重要的间接数据来源。对于使用者来说,“二手数据”的收集显然更加快捷、经济而便利,并且能够突破直接数据收集在时间上的约束,观察变量在较长一段时期

    5、内的变化趋势。但是,需要注意的是,由于“二手数据”是他人调查或实验的结果,并非根据使用者自身的研究目的设计、实施的,很难完全吻合使用者的研究需要,因此,对于数据的筛选、检查、核实等预处理工作就显得尤为重要,避免误用或滥用。第第 2 2 章章 数据的收集数据的收集2.2 2.2 几种基本的抽样方法几种基本的抽样方法几种基本的抽样方法几种基本的抽样方法如果在抽样的过程中,总体中的每个个体都有一个已知的机会(概率)被选中,那么依据这样的抽样方案得到的样本就是一个随机样本随机样本(random sample)。按照一定的概率,依据随机原则从总体中抽取部分单元的抽样方法就称为随机抽样随机抽样(rando

    6、m sampling)或概率抽样概率抽样(probability sampling)。随机抽样最主要的优点是,由于每个总体单元都是随机抽取的,而且能够计算出每个单元被抽中的概率,因此能够计算出数据收集过程中的抽样误差,从而得到样本估计结果的可靠程度。几种基本的抽样方法几种基本的抽样方法假设总体一共有N个单元,从中随机地抽取n个单元组成最后的样本,并且总体中每个单元被抽中的概率是相等的,这就是简单随机抽样简单随机抽样(simple random sampling)。采用简单随机抽样时,如果每抽取一个单元记录下数据后,再把这个单元放回到原来的总体中参与下一次的抽选,称为有放回抽样有放回抽样或重复重

    7、复抽样抽样(sampling with replacement)。如果被抽中的单元不再放回到总体中,每次抽样都仅从剩余的单元中随机抽取,就称为无放回抽样无放回抽样或不重复抽样不重复抽样(sampling without replacement)。几种基本的抽样方法几种基本的抽样方法简单随机抽样是一种最基本的概率抽样方法,也是其他抽样方法的基础。这种方法简单直观,尤其在计算机技术发达的今天,可以方便地利用计算机从总体中抽取简单随机样本。但是,简单随机抽样在实际应用时也存在一些局限性。首先,要获得包含总体所有单元的名单可能是不现实的;其次,如果总体单元某方面的特征(如性别)有可能对研究变量(如身高

    8、)产生影响,抽样时就需要借助这些辅助信息合理安排样本构成比例,提高估计的效率。因此,根据研究问题和研究对象的不同,人们往往会将简单随机抽样与其他抽样方法结合起来使用。几种基本的抽样方法几种基本的抽样方法分层抽样分层抽样(stratified sampling)是在抽样之前先将总体单元按照某种特征或某种规则划分成不同的层,然后从不同的层中独立、随机地抽取一定数量的单元组成样本。分层抽样可以借助总体单元的某些辅助信息,确保不同特征的总体单元都能以一定的数量被包含到样本中,避免了一次简单随机抽样可能抽中的具有相同特征的总体单元过于集中的偏差,使样本结构在一定程度上更加接近总体结构,提高估计的精度。此

    9、外,由于分层抽样不仅可以收集样本数据估计总体的目标变量,还可以提供不同层的估计结果,因此便于比较不同特征的总体单元之间的差异。几种基本的抽样方法几种基本的抽样方法整群抽样整群抽样(cluster sampling)是在抽样之前先按照某种规则将总体单元划分为不同的群,然后随机抽取部分群,被抽中的群中所有的单元都入选到样本中,没有被抽中的群则不做调查。整群抽样与分层抽样看似相近的地方是,在抽样之前都会按照某种规则将总体单元进行分类,但其实质作用则不尽相同。几种基本的抽样方法几种基本的抽样方法分层抽样中对总体单元的分层,目的是为了保障每个层内都有一定数量的单元被抽中,其假设前提是不同层的总体单元之间

    10、存在较大的差异,而同一层内的单元较为相似。而整群抽样主要是通过群的划分,大大简化编制总体所有单元名单的工作量(有的时候可能是无法获得的),并且群的划分规则往往是以地理位置邻近或隶属于同一系统为标准,从而组织实施调查会相对便利,节省了调查费用。因此,理论上来说,只有当不同群的总体单元之间较为相似,抽取若干群就足以代表所有群的总体特征,而被抽中的群内不同单元之间又存在显著差异时,整群抽样的效果才会比较理想。几种基本的抽样方法几种基本的抽样方法系统抽样系统抽样(systematic sampling)是将总体中的所有单元按照一定的顺序排列,在规定的范围内随机抽取一个单元作为起点,然后按照事先确定的规

    11、则依次抽取其他的单元,直至达到样本量的要求。系统抽样操作简便,如果有辅助信息,可以事先对总体单元进行合理的排列,有效地提高抽样的精确度。但是,如果总体单元排列的顺序(如按日期排列)可能导致研究变量(如销售额)存在某种内在的变化规律(如淡季旺季的周期性),由于抽样起点和抽样间隔确定的随机性,也可能导致抽取的样本数据具有某些趋同的特征(如抽取的都是淡季或旺季数据),增加抽样误差。几种基本的抽样方法几种基本的抽样方法【例2-1】表2-1是60家金融类上市公司股票代码和股票名称,抽取10家公司组成一个随机样本。序号序号股票代码股票代码股票名称股票名称序号序号股票代码股票代码股票名称股票名称序号序号股票

    12、代码股票代码股票名称股票名称1000001平安银行21601128常熟银行41601555东吴证券2600000浦发银行22600926杭州银行42002736国信证券3600016民生银行23601229上海银行43000686东北证券4600036招商银行24603323吴江银行44600909华安证券5600015华夏银行25002839张家港行45000776广发证券6601988中国银行26601838成都银行46000728国元证券7601398工商银行27601628中国人寿47600061国投资本8601166兴业银行28601318中国平安48600155宝硕股份960199

    13、8中信银行29601601中国太保49601901方正证券10601328交通银行30601336新华保险50600864哈投股份11002142宁波银行31601198东兴证券51601788光大证券12601009南京银行32601375中原证券52601377兴业证券13601169北京银行33002797第一创业53601211国泰君安14601939建设银行34002670国盛金控54600705中航资本15601288农业银行35002500山西证券55000783长江证券16601818光大银行36601688华泰证券56600369西南证券17600919江苏银行3760188

    14、1中国银河57000750国海证券18601997贵阳银行38002673西部证券58600837海通证券19002807江阴银行39600109国金证券59600999招商证券表表2-1 60家金融类上市公司股票代码和股票名称家金融类上市公司股票代码和股票名称几种基本的抽样方法几种基本的抽样方法解:解:首先将表2-1中的60家公司的序号、股票代码和股票名称分别录入到Excel工作表中的三列单元格中(A2:A61;B2:B61;C2:C61),然后按照如下步骤进行随机抽样。第1步:在Excel工作表界面中点击【数据】【数据分析】。第2步:在弹出的对话框中选择【抽样】,单击【确定】按钮,如图2-

    15、1所示。第3步:在弹出的对话框【输入区域】中输入60家上市公司的序号(非数值型数据不能直接参与抽样);【抽样方法】中选择【随机】,并在【样本数】后面输入需要抽取的样本量;在【输出选项】中选择抽样结果显示的方式(【输出区域】可在当前工作表中指定区域显示,也可以选择其他两个选项将结果保存为新工作表组或新工作簿);最后单击【确定】按钮。第第 2 2 章章 数据的收集数据的收集2.3 2.3 数据收集的误差数据收集的误差数据收集的误差数据收集的误差在数据收集的过程中,即使条件允许能够对总体中每个单元进行统计调查(例如我国定期开展的人口普查,或者对本校选修统计学课程的所有同学进行问卷调查),记录下来的数

    16、据结果与真实的情况也不一定会百分之百地吻合,这就是数据收集的误差。导致数据收集误差产生的因素有很多,尤其是抽样调查过程中,抽样误差、未响应误差和响应误差是我们必须知道并尽力控制在研究可接受限度内的三个重要方面。数据收集的误差数据收集的误差统计调查的随机性决定了,不同的样本会产生不同的数据,从而很难期望某一个特定的样本估计结果能够恰好与总体的真实情况完全一致,这就是抽样误差抽样误差(sampling error)。只要采用抽样调查,抽样误差就不可避免,它并不是一个“错误”的误差。抽样误差的大小依赖于抽样的方式和样本量的大小。数据收集的误差数据收集的误差在其他条件相同的情况下,样本量越大,抽样误差

    17、越小。抽样误差与样本量的平方根大致呈反比关系,如图所示。数据收集的误差数据收集的误差实践中,即使按照合理的方法设计统计调查方案,将抽样误差事先控制在可接受的范围内,但出于各种原因,仍然可能无法获得每一个被选入到样本中的总体单元的数据,而这部分数据的缺失所造成的样本估计结果与总体真实情况之间的偏差就是未响应误差未响应误差(nonresponse error)。经验表明,如果在最初选中的抽样对象中,未响应者占到的比例并不高,例如只有20%甚至更低,那么大多数情况下,只要抽样方案合理,最终的样本量足够大,可以在一定程度上假定未响应者和响应者并无太大差别,响应者的回答足以代表其他未响应者。但是,如果响

    18、应率很低,例如不超过50%,那么此时的未响应误差可能会较为显著,影响到样本的代表性,需要谨慎使用。数据收集的误差数据收集的误差造成受访者未响应的原因有很多,包括由于对调查不感兴趣或对调查人员不够信任等主观原因造成的拒访,也包括由于时间冲突、身体状况不佳等客观原因造成的无法接受调查等。一方面可以通过一些预防性的措施有针对性地提高响应率。另一方面,分析未响应者的基本特征,尽可能降低随机因素之外的其他因素可能带来的响应者与未响应者之间的差别,将未响应误差控制在可接受的范围内。最后,必要时还应对存在未响应的数据进行调整,达到纠偏、校正的补救效果。数据收集的误差数据收集的误差如果受访者的回答与真实情况并

    19、不吻合,就会直接导致样本数据估计结果与总体真实情况之间的偏差,这就是响应误差响应误差(response error)。引起响应误差的因素同样十分广泛。第一个方面是调查问卷设计不周可能带来的误差。另一个方面是受访者自身因素可能带来的误差。此外,调查人员也是可能引起响应误差的重要因素之一。第第 2 2 章章 数据的收集数据的收集2.4 2.4 小结小结小结小结实践中,人们可以通过直接进行调查或实验收集“一手数据”,也可以利用他人调查或实验的结果整理得到“二手数据”。多数情况下,数据都是从总体当中抽取得到的样本数据。如果能够使得总体中的每个个体都有一个已知的机会(概率)被选中,那么依据这样的抽样方法得到的样本就是一个随机样本。基于随机样本数据得到的统计分析结果是能够被推广应用于其所属总体的、有较好代表性的统计结果。小结小结简单随机抽样、分层抽样、整群抽样和系统抽样是获得随机样本的几种常见的概率抽样方法,有各自的优缺点和适用情形。收集数据时,抽样的随机性决定了抽样误差是不可避免的,但由于部分受访者没有回答问题所可能产生的未响应误差以及接受调查的受访者没有提供真实答案所可能造成的响应误差则是应该尽力控制和消除的。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:统计学-数据的收集课件.ppt
    链接地址:https://www.163wenku.com/p-3225110.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库