书签 分享 收藏 举报 版权申诉 / 42
上传文档赚钱

类型第八章-非抽样误差.课件.ppt

  • 上传人(卖家):三亚风情
  • 文档编号:3002881
  • 上传时间:2022-06-21
  • 格式:PPT
  • 页数:42
  • 大小:240.50KB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《第八章-非抽样误差.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    第八 抽样误差 课件
    资源描述:

    1、第八章第八章 非抽样误差非抽样误差第八章 非抽样误差 教学目的教学目的 通过本章的教学,使学生熟悉非抽样误差的含义及特点;掌握抽样框误差、无回答误差、计量误差等产生的原因和预防的方法。 重点与难点重点与难点 本章的重点非抽样误差的含义及其各种非抽样误差形成的原因和预防方法;难点是抽样框误差、无回答误差、计量误差等产生的原因和预防的方法。本章结构本章结构 8.1 引言引言 8.2 抽样框误差抽样框误差3. 8.3 无回答误差无回答误差4. 8.4 计量误差计量误差8.1 8.1 引言引言 一、非抽样误差的含义一、非抽样误差的含义 非抽样误差是指除抽样误差以外非抽样误差是指除抽样误差以外的,由于各

    2、种原因引起的误差。在概的,由于各种原因引起的误差。在概率抽样、非概率抽样、其他全面调查率抽样、非概率抽样、其他全面调查和非全面调查以及普查中,非抽样误和非全面调查以及普查中,非抽样误差都用可能存在。差都用可能存在。二、非抽样误差的特点二、非抽样误差的特点1.非抽样误差不是由于抽样的随机性带来的,所非抽样误差不是由于抽样的随机性带来的,所以在抽样调查中,它不可能随着样本量的增大以在抽样调查中,它不可能随着样本量的增大而变小;而变小;2.在抽样调查中,由于非抽样误差的影响,往往在抽样调查中,由于非抽样误差的影响,往往造成估计量的有偏;造成估计量的有偏;3.有些非抽样误差难以识别和测定;有些非抽样误

    3、差难以识别和测定;4.由于产生非抽样误差的渠道众多,有些非抽样由于产生非抽样误差的渠道众多,有些非抽样误差成因复杂,尤其调查对象是人的时候,社误差成因复杂,尤其调查对象是人的时候,社会因素、经济因素对非抽样误差的范围和程度会因素、经济因素对非抽样误差的范围和程度都产生不可忽视的影响。都产生不可忽视的影响。三、非抽样误差的类型三、非抽样误差的类型1.抽样框误差,即由不完善的抽样框引起的误差;抽样框误差,即由不完善的抽样框引起的误差;2.无回答误差,即由于种种原因没有从被调查单位无回答误差,即由于种种原因没有从被调查单位获得调查结果,造成调查数据的缺失;获得调查结果,造成调查数据的缺失;3.计量误

    4、差,即所获得的调查数据与其真值之间不计量误差,即所获得的调查数据与其真值之间不一致造成的误差。一致造成的误差。8.2 8.2 抽样框误差抽样框误差 抽样调查从一开始就必须注意尽量避免抽样调查从一开始就必须注意尽量避免非抽样误差非抽样误差, ,正如本教材第一章所述正如本教材第一章所述, ,抽样设抽样设计方案对于抽样结果是否精确起着很重要的计方案对于抽样结果是否精确起着很重要的作用。一个设计很差的抽样方案将会带来足作用。一个设计很差的抽样方案将会带来足以使抽样失败的非抽样误差,第一章中提到以使抽样失败的非抽样误差,第一章中提到的的文学摘要文学摘要民意测验则是一个有说服力民意测验则是一个有说服力的实

    5、例。的实例。 美国美国文学摘要文学摘要对于对于19361936年美国总统选年美国总统选举进行了预测,当时大多数观察家认为罗斯福举进行了预测,当时大多数观察家认为罗斯福会轻易获胜,而会轻易获胜,而文学摘要文学摘要根据自己的抽样根据自己的抽样断定兰登与罗斯福的获胜比率将是断定兰登与罗斯福的获胜比率将是5757和和4343. .然而却是罗斯福以然而却是罗斯福以6262比比3838的绝对优势坐上的绝对优势坐上了总统宝座。与事实完全相悖的预测断送了这了总统宝座。与事实完全相悖的预测断送了这家原本颇有名气的杂志的前程,不久它只得停家原本颇有名气的杂志的前程,不久它只得停刊就此刊就此“关门大吉关门大吉”。

    6、美国美国文学摘要文学摘要发出了发出了10001000万张调查表,收万张调查表,收回了回了200200万张,花费了那么大的精力,收集了那么万张,花费了那么大的精力,收集了那么多的数据多的数据 ,怎么会出那么大的错误呢?,怎么会出那么大的错误呢?主要原因主要原因就是抽样框的选取就是抽样框的选取。原来它是按照电话簿和俱乐部。原来它是按照电话簿和俱乐部成员的名单发出调查表的,由此选取的样本明显地成员的名单发出调查表的,由此选取的样本明显地排斥穷人!因为当时一般穷人很少拥有私人电话或排斥穷人!因为当时一般穷人很少拥有私人电话或隶属于哪个俱乐部(隶属于哪个俱乐部(19361936年,美国大约有年,美国大约

    7、有11001100万部万部住宅电话)。众所周知,经济地位在很大程度上影住宅电话)。众所周知,经济地位在很大程度上影响着政治态度:穷人压倒多数地倾向于罗斯福而有响着政治态度:穷人压倒多数地倾向于罗斯福而有钱人则偏向于兰登。钱人则偏向于兰登。文学摘要文学摘要的样本反映不出的样本反映不出这个社会现实从而犯了致命的错误。这个社会现实从而犯了致命的错误。 设计带来非抽样误差有很多表现在抽样框出了设计带来非抽样误差有很多表现在抽样框出了问题,第一章中所述的问题,第一章中所述的文学摘要文学摘要的抽样框明显的抽样框明显地偏向于某一部分人而忽略了另一部分人,从中产地偏向于某一部分人而忽略了另一部分人,从中产生的

    8、非抽样误差使得抽样结果不能反映总体(全体生的非抽样误差使得抽样结果不能反映总体(全体选民)的意见。这种致命的错误来源于抽样框选民)的意见。这种致命的错误来源于抽样框“丢丢失失”了总体中占有一定比例的单元,如果这一部分了总体中占有一定比例的单元,如果这一部分被被“丢失丢失”的群体在调查关心的参数方面有其独特的群体在调查关心的参数方面有其独特的一面,那么这种的一面,那么这种“丢失丢失”引起的非抽样误差使推引起的非抽样误差使推断或估计带有明显的偏性。断或估计带有明显的偏性。 如果我们的抽样方案是分层抽样,分层抽样如果我们的抽样方案是分层抽样,分层抽样不太可能按照关心的总体参数去实施,而常常根不太可能

    9、按照关心的总体参数去实施,而常常根据若干辅助信息来进行,当然这些辅助信息与调据若干辅助信息来进行,当然这些辅助信息与调查变量应当有较强的相关程度。倘若这些辅助变查变量应当有较强的相关程度。倘若这些辅助变量资料不健全,不准确甚至借用这些辅助变量本量资料不健全,不准确甚至借用这些辅助变量本身属于判断失误,由此引起的非抽样误差可能会身属于判断失误,由此引起的非抽样误差可能会严重威胁到估计的准确性。严重威胁到估计的准确性。 有时候陈旧的抽样框将带来我们所不希有时候陈旧的抽样框将带来我们所不希望看到的非抽样误差,因为陈旧的抽样框会望看到的非抽样误差,因为陈旧的抽样框会造成总体单元的造成总体单元的“丢失丢

    10、失”现象,一般地它还现象,一般地它还难以反映近期有关变量的一些变化。难以反映近期有关变量的一些变化。 以上所述的非抽样误差属于在抽样之前以上所述的非抽样误差属于在抽样之前的设计方案工作及编制抽样框中需要认真对的设计方案工作及编制抽样框中需要认真对待的。本章就抽样过程中产生的非抽样误差待的。本章就抽样过程中产生的非抽样误差进行详尽的讨论。进行详尽的讨论。8.3 8.3 无回答误差无回答误差一、概一、概 念念 无回答误差是指在调查中由于种种原因,无回答误差是指在调查中由于种种原因,调查人员没能够从入选样本的单元处获得所需调查人员没能够从入选样本的单元处获得所需要的信息,由于数据缺失造成估计量的偏误

    11、。要的信息,由于数据缺失造成估计量的偏误。 无回答误差是一种重要的非抽样误差,对无回答误差是一种重要的非抽样误差,对调查数据的质量起着重要影响。调查数据的质量起着重要影响。 由于这种现象十分普遍,对估计量的危害由于这种现象十分普遍,对估计量的危害也比较大,所以国际上对这方面的讨论一直比也比较大,所以国际上对这方面的讨论一直比较热烈,目前这种讨论仍在继续。较热烈,目前这种讨论仍在继续。二、无回答误差产生原因及影响二、无回答误差产生原因及影响(1 1)遗漏。由随机抽样所确定的调查单位出现)遗漏。由随机抽样所确定的调查单位出现“找不到找不到”现象,或者由于客观存在的一些困难,现象,或者由于客观存在的

    12、一些困难,诸如交通极端不便,气候异常恶劣等而无法找到诸如交通极端不便,气候异常恶劣等而无法找到确定要去访问的对象。确定要去访问的对象。(2 2)被调查对象不在家。有时候可以请家庭中)被调查对象不在家。有时候可以请家庭中其他人甚至就近换一家进行访问,这样的做法其他人甚至就近换一家进行访问,这样的做法虽然方便,但是在一定程度上破坏了随机性。虽然方便,但是在一定程度上破坏了随机性。有时候为了确保抽样的随机性,有时候为了确保抽样的随机性,“不在家不在家”就就造成了造成了“无回答无回答”。(3 3)不能回答。某些被访问者对于问卷中的)不能回答。某些被访问者对于问卷中的若干问题缺乏有关资料或者出于各种各样

    13、的原若干问题缺乏有关资料或者出于各种各样的原因而不愿意回答。因而不愿意回答。(4 4)坚决拒绝调查。这是由于各种原因造成)坚决拒绝调查。这是由于各种原因造成的,尤其是有些问题涉及到个人隐私等等,由的,尤其是有些问题涉及到个人隐私等等,由此产生的偏差一般较难消除。此产生的偏差一般较难消除。 造成无回答现象的原因有许许多多,但一造成无回答现象的原因有许许多多,但一般地,由政府部门出面组织的抽样调查常常能般地,由政府部门出面组织的抽样调查常常能得到被调查者的友好合作,这种情况下无回答得到被调查者的友好合作,这种情况下无回答现象的比例相对地较少,然而对于一般的市场现象的比例相对地较少,然而对于一般的市

    14、场信息调查等非政府组织的抽样调查无回答现象信息调查等非政府组织的抽样调查无回答现象比例非常的高。随着我国社会主义市场经济的比例非常的高。随着我国社会主义市场经济的发展和完善,这种情况正在逐步得到改善。发展和完善,这种情况正在逐步得到改善。 其实调查人员的素质,调查问题的拟定,其实调查人员的素质,调查问题的拟定,被调查人员的文化素质等等都对无回答率有一被调查人员的文化素质等等都对无回答率有一定影响。每项抽样调查,我们需要力求低比率定影响。每项抽样调查,我们需要力求低比率的无回答现象,从目前来看,完全避免无回答的无回答现象,从目前来看,完全避免无回答现象是不可能的。现象是不可能的。三、如何解决无回

    15、答现象产生的非抽样误差三、如何解决无回答现象产生的非抽样误差1 1、提高问卷的回收率、提高问卷的回收率 调查报告一般要求列出回收率,尤其是通过调查报告一般要求列出回收率,尤其是通过邮寄方式进行的调查,更需如此。因为回收率的邮寄方式进行的调查,更需如此。因为回收率的高低将有力地论证调查的成功与否。高低将有力地论证调查的成功与否。 对回收率的分析将有助于在无回答现象较严对回收率的分析将有助于在无回答现象较严重的情况下进行数据分析,同时也有助于分析出重的情况下进行数据分析,同时也有助于分析出哪些对象是可以再访问从而采取多次访问的手段哪些对象是可以再访问从而采取多次访问的手段尽量减少无回答率。尽量减少

    16、无回答率。2 2、科学进行数据分析、科学进行数据分析 设抽样容量为设抽样容量为n n,无回答个数为,无回答个数为n n2 2,那么我们,那么我们的实际调查量为的实际调查量为n n1 1=n-n=n-n2 2。根据。根据n n1 1个有效数据分析个有效数据分析将比原定的计划少了很多信息。如果这将比原定的计划少了很多信息。如果这n n1 1个访问到个访问到的对象是从原定的对象中随机无放回地抽取的,的对象是从原定的对象中随机无放回地抽取的,那么推断的结果只是精度上的损失,至于估计量那么推断的结果只是精度上的损失,至于估计量的一些良好性质,例如无偏性等仍然保留。的一些良好性质,例如无偏性等仍然保留。

    17、然而事情并非这样地如意,无回答者常常拥有某些特然而事情并非这样地如意,无回答者常常拥有某些特征以致对调查的问题持有特定的态度,因此依据征以致对调查的问题持有特定的态度,因此依据 个回答个回答数据所作出的推断往往带有偏性。以总体平均数的估计为数据所作出的推断往往带有偏性。以总体平均数的估计为例,我们面临的情况相当于总体中例,我们面临的情况相当于总体中N N 个单元划分为两部个单元划分为两部分:分: 回答者,回答者, 无回答者。倘若抽样方式是无回答者。倘若抽样方式是简单随机的,那么简单随机的,那么 与与 的比例理应相当于的比例理应相当于 与与 的比的比例。这两部分的平均数分别记为例。这两部分的平均

    18、数分别记为 和和 ,于是总体平均数,于是总体平均数为:为:1n1N2N1N2N2n1n2Y1Y12121122NNYYYW YW YNN(8.1)(8.1)根据根据“回答者回答者”部分的平均数部分的平均数 是是 的无偏估计,用的无偏估计,用 估计估计 显然会产生偏倚:显然会产生偏倚:1y1y1YY11122221(1)()YYWYW YW YY(8.2)(8.2)这个偏倚中,这个偏倚中, 与与 是可以利用调查得到的数据进行估计是可以利用调查得到的数据进行估计的,但是由于的,但是由于“无回答无回答”, 是根本无法获知其信息的,因此是根本无法获知其信息的,因此要对估计量要对估计量 给于给于“纠偏纠

    19、偏”,其难度极大,尤其是在,其难度极大,尤其是在 较大时较大时也就是也就是“无回答者无回答者”占有相当大比例时,连占有相当大比例时,连 的置信限都难于的置信限都难于得到。得到。2W1Y2Y1y2W2Y 在有些实例中,人们只能对偏倚作出一些猜测,这些在有些实例中,人们只能对偏倚作出一些猜测,这些猜测有时候可以根据一些历史的资料作出,有一定的参考猜测有时候可以根据一些历史的资料作出,有一定的参考价值;但是有时候凭主观作出的猜测无法证实其正确性,价值;但是有时候凭主观作出的猜测无法证实其正确性,因此利用它来因此利用它来“纠偏纠偏”缺乏依据也缺乏精确度,这显然归缺乏依据也缺乏精确度,这显然归因于无回答

    20、现象带来的恶果。因于无回答现象带来的恶果。 (1 1)对某些问题无回答的数据以该问题回答数据的平)对某些问题无回答的数据以该问题回答数据的平均数来代替;均数来代替; (2 2)从对某问题回答的)从对某问题回答的 个数据中作个数据中作 次随机有放回次随机有放回的抽样,以填补的抽样,以填补 个无回答者的数据。个无回答者的数据。1n2n2n 然而在用计算机处理抽样数据时,不单单是简单地用然而在用计算机处理抽样数据时,不单单是简单地用 去代替去代替 或者最多给出一定量的纠偏。众所周知,抽样调或者最多给出一定量的纠偏。众所周知,抽样调查一般不止问一个问题,我们的问卷经常围绕调查的目的查一般不止问一个问题

    21、,我们的问卷经常围绕调查的目的而设置一系列问题,我们遇到的无回答现象经常表现为:而设置一系列问题,我们遇到的无回答现象经常表现为:全部问题无回答或部分问题无回答。在部分问题无回答者全部问题无回答或部分问题无回答。在部分问题无回答者中,将会呈现回答问题的多少以及哪些问题无回答的复杂中,将会呈现回答问题的多少以及哪些问题无回答的复杂情况,这给计算机处理及整体推断带来一定的困难。有些情况,这给计算机处理及整体推断带来一定的困难。有些学者提出对于这样的学者提出对于这样的“丢失丢失”数据能否人为地补缺,如果数据能否人为地补缺,如果对无回答对象一无所知的情况下,我们可以采取下述措施:对无回答对象一无所知的

    22、情况下,我们可以采取下述措施:1YY 上述做法还是相当于从上述做法还是相当于从 个回答者的数据出发对总体个回答者的数据出发对总体作出推断,但是在计算机上整体考虑来说是作为作出推断,但是在计算机上整体考虑来说是作为 个样本个样本来处理的,给整体全面的推断带来某种方便,且也具有一来处理的,给整体全面的推断带来某种方便,且也具有一定合理性,因为我们的抽样调查本身是要求定合理性,因为我们的抽样调查本身是要求 个均有回答个均有回答的。然而这样的处理在精度上如何计算,或者说新构成的的。然而这样的处理在精度上如何计算,或者说新构成的估计量方差如何估计,国外的一些统计学家曾作过研究与估计量方差如何估计,国外的

    23、一些统计学家曾作过研究与进一步的探索。进一步的探索。1nnn3 3、多次访问、多次访问 为了缩小无回答所引起的偏差,减少无回答的数量,为了缩小无回答所引起的偏差,减少无回答的数量,有必要采取一些措施,例如对访问者的培训,对敏感问题有必要采取一些措施,例如对访问者的培训,对敏感问题的适当处理以消除被访问者的疑虑,调查前作好充分的准的适当处理以消除被访问者的疑虑,调查前作好充分的准备工作等等,采用多次访问是个有效的方法。当然,对于备工作等等,采用多次访问是个有效的方法。当然,对于那些那些“坚决拒绝回答者坚决拒绝回答者”来说,多次访问很难奏效,但是来说,多次访问很难奏效,但是对于那些对于那些“不在家

    24、不在家”或或“不能回答不能回答”原因的无回答者应当原因的无回答者应当有不小的作用。有不小的作用。 实际工作表明,多次访问的确能做到减少无实际工作表明,多次访问的确能做到减少无回答率,随之而引出的问题是承担的费用问题。回答率,随之而引出的问题是承担的费用问题。一般地,抽样方案设计中会留下一部分经费用于一般地,抽样方案设计中会留下一部分经费用于“再访问再访问”以便提高回答率。所谓多次访问不可以便提高回答率。所谓多次访问不可能能“许多次许多次”,因为随着访问次数的增加,每次,因为随着访问次数的增加,每次的回收率将随之减少,因此的回收率将随之减少,因此“许多次许多次”是不必要是不必要的。另外在再次访问

    25、时,最好的办法是换一个访的。另外在再次访问时,最好的办法是换一个访问员独立地对前一次无回答者进行访问,这样常问员独立地对前一次无回答者进行访问,这样常常可以收到很好的效果。常可以收到很好的效果。 如果由于条件的限制,只能进行一次调查,如如果由于条件的限制,只能进行一次调查,如何较正由于无回答而引起的误差呢?何较正由于无回答而引起的误差呢? PolizeSimmons对总体平均数提出的建议对我们有一定对总体平均数提出的建议对我们有一定的参考价值。的参考价值。4、PolizeSimmons较正较正 假定所有访问者均是在除周日以外的假定所有访问者均是在除周日以外的6 6个晚上个晚上进行,对于每一个实

    26、际被调查者在答完问卷以后进行,对于每一个实际被调查者在答完问卷以后再附带询问一个问题:再附带询问一个问题:“除周日之外,您在今晚除周日之外,您在今晚以前的以前的5 5个晚上有几天在家?个晚上有几天在家?”这个问题的如实回这个问题的如实回答实际上告诉了访问员关于他晚上在家答实际上告诉了访问员关于他晚上在家的频率的频率的的一个大致估计:一个大致估计: (其中(其中t是被调查者是被调查者回答的天数)。回答的天数)。(1) 6t 根据调查的结果可以将被访问人分为根据调查的结果可以将被访问人分为6 6部分,部分,即即 。设每个部分含有。设每个部分含有 个人。显然,个人。显然, 越大,越大, 就越大,对应

    27、此就越大,对应此 的组入样的可能性就越大,这样该部分的组入样的可能性就越大,这样该部分的平均数的平均数 在估计总体平均数的过程中应当赋予与该组在在估计总体平均数的过程中应当赋予与该组在家频率家频率 相适应的权。相适应的权。0,1,5t tnt tty 这种思想实质上类似于不等概率抽样时的平均数估计。这种思想实质上类似于不等概率抽样时的平均数估计。按照这种加权平均的思想,我们将原先的样本平均数(当按照这种加权平均的思想,我们将原先的样本平均数(当然是基于被调查到的样本)然是基于被调查到的样本) 调整为所谓调整为所谓Polize-Simmons估估计量计量:Y550055006(1)(1)6(1)

    28、(1)ttttttPSttttn ytn ytYntnt(8.3)(8.3)Polize-Simmons较正在直观上有合理的解释:某些调查指较正在直观上有合理的解释:某些调查指标标诸如生活费用的平均年收入或年支出诸如生活费用的平均年收入或年支出与被调查与被调查者是否容易找到是较强相关的两个因素。如果不采用加权者是否容易找到是较强相关的两个因素。如果不采用加权平均数而采用被调查者的平均数,那么所得到的估计就相平均数而采用被调查者的平均数,那么所得到的估计就相对地突出了那些容易被找到的人的影响,而掩盖了另一部对地突出了那些容易被找到的人的影响,而掩盖了另一部分不容易找到的人的影响。分不容易找到的人

    29、的影响。 P-S较正采用加权平均对偏差作了一定程度上的较正。较正采用加权平均对偏差作了一定程度上的较正。当然所利用的权当然所利用的权 50(1)(1)tttntnt 本身是通过抽样调查的数据估算出来的,它将无可质疑地本身是通过抽样调查的数据估算出来的,它将无可质疑地影响到估计量的方差(增大),对估计的精度付出代价,影响到估计量的方差(增大),对估计的精度付出代价,但是我们毕竟不要再花费时间、精力和费用去作多次访问但是我们毕竟不要再花费时间、精力和费用去作多次访问并达到纠偏的作用。并达到纠偏的作用。8.4 8.4 计量误差计量误差 一、概念一、概念 计量误差是又一种重要的非抽样误差。由于计量误差

    30、是又一种重要的非抽样误差。由于计量工具的不够精确,或由于调查人员工作的粗计量工具的不够精确,或由于调查人员工作的粗糙失误,或者是数据处理人员的马马虎虎,都有糙失误,或者是数据处理人员的马马虎虎,都有可能造成调查所得数据与真值之间的不一致。这可能造成调查所得数据与真值之间的不一致。这样的计量误差(或称调查误差)将严重地威胁到样的计量误差(或称调查误差)将严重地威胁到抽样推断。本节还要简略讨论到另一种调查误差,抽样推断。本节还要简略讨论到另一种调查误差,那就是人为的那就是人为的“虚假虚假”数据,数据的伪造与虚假数据,数据的伪造与虚假干扰了我们的调查与推断,有时候会发生不堪设干扰了我们的调查与推断,

    31、有时候会发生不堪设想的严重后果。想的严重后果。( (一一) )设计不周引起的误差设计不周引起的误差 因为方案以及问卷的设计引起偏差的问题,因为方案以及问卷的设计引起偏差的问题,我们已经在第一章中较为详尽地阐述过,本节我们已经在第一章中较为详尽地阐述过,本节稍稍谈论由此引起的计量方面的误差。稍稍谈论由此引起的计量方面的误差。 在调查咨询方面取得极大成功的盖洛普十在调查咨询方面取得极大成功的盖洛普十分强调问卷设计中的用词,用词欠妥有可能分强调问卷设计中的用词,用词欠妥有可能引起调查结果在计量方面显著的不同,足以引起调查结果在计量方面显著的不同,足以例证的当推例证的当推Rugg试验:试验: 问题甲:

    32、问题甲:“您认为美国应当禁止反对民主的公开言论您认为美国应当禁止反对民主的公开言论吗?吗?”其结果是其结果是5454的人赞成。的人赞成。 问题乙:问题乙:“您认为美国应该允许反对民主的公开言论您认为美国应该允许反对民主的公开言论吗?吗?”结果是结果是7575的人不赞成。的人不赞成。 两个问题表示美国多数以上的人不同意在美国有公开两个问题表示美国多数以上的人不同意在美国有公开反对民主的言论,但比例为反对民主的言论,但比例为5454:7575,相距甚远。既然人们,相距甚远。既然人们倾向于不允许反对民主的公开言论,但倾向于不允许反对民主的公开言论,但“禁止禁止”两字使不两字使不少人感到这与少人感到这

    33、与“民主及言论自由民主及言论自由”有相悖之处。这里面涉有相悖之处。这里面涉及到美国的国情、美国人的心理承受等各种因素。及到美国的国情、美国人的心理承受等各种因素。 当然,要想完全避免问题设计引起的计量上的误差很当然,要想完全避免问题设计引起的计量上的误差很难做到,因此我们主张有时候可以做些小范围的试调查,难做到,因此我们主张有时候可以做些小范围的试调查,从而调整我们的各种用词。从而调整我们的各种用词。( (二二) )调查员误差调查员误差 对于一个对象的访问,如果不存在调查员方面对于一个对象的访问,如果不存在调查员方面的问题,照理调查所取得的数据与真值之间只有随的问题,照理调查所取得的数据与真值

    34、之间只有随机误差,因此从理论上讲,只要对该对象多次访问机误差,因此从理论上讲,只要对该对象多次访问再取平均数则可以基本上再取平均数则可以基本上“抵消抵消”随机误差的影响。随机误差的影响。然而由于调查员方面引起的误差(通常称为系统误然而由于调查员方面引起的误差(通常称为系统误差)不可能通过多次访问而抵消。差)不可能通过多次访问而抵消。 调查员误差常常归因于:调查员误差常常归因于: (1 1)调查员本身的素质,倘若一个调查员工作)调查员本身的素质,倘若一个调查员工作粗糙、登录马虎等,则会引起不必要的差错。有些粗糙、登录马虎等,则会引起不必要的差错。有些调查员只在调查中将对象提供的以前的或公开的资调

    35、查员只在调查中将对象提供的以前的或公开的资料照抄,殊不知这些料照抄,殊不知这些 以前的或公开的数据与现在要以前的或公开的数据与现在要调查得到的数据之间有时是存在差异的,这样的误调查得到的数据之间有时是存在差异的,这样的误差当然是由调查员而引起的。差当然是由调查员而引起的。 (2 2)调查员的诱导引起的调查误差。调查员)调查员的诱导引起的调查误差。调查员为了将问题展开下去,常启发被调查人员,或做为了将问题展开下去,常启发被调查人员,或做一些示范暗示,做一些比喻,言语与动作之间常一些示范暗示,做一些比喻,言语与动作之间常带有调查员本身的一些想法带有调查员本身的一些想法愿望等,只要回答的愿望等,只要

    36、回答的结果不对被调查人员的生活及其他带来不利影响结果不对被调查人员的生活及其他带来不利影响的话,有些被调查人员就会自然地顺着调查员的的话,有些被调查人员就会自然地顺着调查员的思路回答问卷。思路回答问卷。 (3 3)调查员按照被调查人员给自己留下的初步)调查员按照被调查人员给自己留下的初步印象而推测填写问卷。不能否认,调查员本身是生印象而推测填写问卷。不能否认,调查员本身是生活在社会中的一员,对许多事情有自己的思想,会活在社会中的一员,对许多事情有自己的思想,会作出自己的判断。被调查人员的年龄、性别、社会作出自己的判断。被调查人员的年龄、性别、社会职业、家庭收入,以及一进门就可看到的家庭摆设、职

    37、业、家庭收入,以及一进门就可看到的家庭摆设、卫生状况,甚至被调查人员的容貌等都会给调查人卫生状况,甚至被调查人员的容貌等都会给调查人员一个较深刻的印象,在问卷中有些不清楚的问题,员一个较深刻的印象,在问卷中有些不清楚的问题,或者需要被调查人员讲述一些观点而由调查员记录或者需要被调查人员讲述一些观点而由调查员记录下来的内容,都有可能由于调查员认为这样的人必下来的内容,都有可能由于调查员认为这样的人必定如何回答该问题的印象而引起误差。定如何回答该问题的印象而引起误差。 或者调查员根据先前对其他人的访问留下的印象,比或者调查员根据先前对其他人的访问留下的印象,比如对某问题持赞成者多,那么这种印象也很

    38、有可能成为他如对某问题持赞成者多,那么这种印象也很有可能成为他采访下一个对象时已经形成初步结论。采访下一个对象时已经形成初步结论。 以上这些调查员误差都是属于系统误差,称为偏差,以上这些调查员误差都是属于系统误差,称为偏差,不可能通过大量访问或多次访问加以克服。要尽可能地避不可能通过大量访问或多次访问加以克服。要尽可能地避免或减少调查员误差就必须挑选合格称职的调查员,并且免或减少调查员误差就必须挑选合格称职的调查员,并且对调查员预先进行培训,讲清楚注意点,尤其是要向调查对调查员预先进行培训,讲清楚注意点,尤其是要向调查员反复强调职业道德。另外抽样调查的督导十分重要,督员反复强调职业道德。另外抽

    39、样调查的督导十分重要,督导的作用是检查调查质量,并从中抽取少部分进行核查访导的作用是检查调查质量,并从中抽取少部分进行核查访问以评估调查的质量。核查通常采用电话方式,若上门核问以评估调查的质量。核查通常采用电话方式,若上门核查则常常采用调查员之间交叉核查的办法。查则常常采用调查员之间交叉核查的办法。(三)被调查人员误差(三)被调查人员误差 被调查人员误差虽然需要被调查人员误差虽然需要“防治防治”,但有些,但有些是可以原谅的,例如被调查者对问题的理解发生是可以原谅的,例如被调查者对问题的理解发生差错就是一例,当然如果是调查员上门访问,那差错就是一例,当然如果是调查员上门访问,那么这种差错就容易及

    40、时更正,但如果是邮寄问卷么这种差错就容易及时更正,但如果是邮寄问卷等则无法纠正了。另外,有不少事情是需要被调等则无法纠正了。另外,有不少事情是需要被调查人员回忆后再回答的,它不像查人员回忆后再回答的,它不像“什么时侯出什么时侯出生生”、“何地出生何地出生”、“家中有几口人家中有几口人”等这些等这些问题既简单且不易发生差错。问题既简单且不易发生差错。 有些事情,时间比较长且又比较复杂,回忆有些事情,时间比较长且又比较复杂,回忆有一定的困难,差错也是难免的。对于这种类型有一定的困难,差错也是难免的。对于这种类型的差错,一般要求调查员有耐心地等待,给予一的差错,一般要求调查员有耐心地等待,给予一定的

    41、回忆时间。倘若被调查人员身体不适、情绪定的回忆时间。倘若被调查人员身体不适、情绪欠佳,或者调查环境使人烦躁等都会引起回答误欠佳,或者调查环境使人烦躁等都会引起回答误差。差。 另一类由被调查人员引起的调查误差是不可另一类由被调查人员引起的调查误差是不可原谅的,那就是被调查人员原谅的,那就是被调查人员“谎报军情谎报军情”提供虚提供虚假数据。这里面有一部分人因为牵涉到一些敏感假数据。这里面有一部分人因为牵涉到一些敏感性问题而不愿如实回答,对于敏感性问题的巧妙性问题而不愿如实回答,对于敏感性问题的巧妙处理将在下一节进行讨论。但是,在我国的确存处理将在下一节进行讨论。但是,在我国的确存在着虚报瞒报、篡改

    42、统计数据等现象,使国家统在着虚报瞒报、篡改统计数据等现象,使国家统计局掌握统计信息,反映我国国民经济发展及社计局掌握统计信息,反映我国国民经济发展及社会运行状况工作遇到人为麻烦。因此,广泛宣传会运行状况工作遇到人为麻烦。因此,广泛宣传统计法,加强对统计法执行的力度已经刻不容缓。统计法,加强对统计法执行的力度已经刻不容缓。 关于样本数据是否虚假,存在一个发现与判关于样本数据是否虚假,存在一个发现与判断的问题,往往只有比较样本数据的整体变化才断的问题,往往只有比较样本数据的整体变化才有可能确定,或者可以利用历史样本以及经验进有可能确定,或者可以利用历史样本以及经验进行判断。行判断。二、虚假数据的判

    43、断与处理二、虚假数据的判断与处理 例如,如果我们发现某村申报小麦亩产量为例如,如果我们发现某村申报小麦亩产量为500500公斤,从该村历史上的小麦亩产量以及周围公斤,从该村历史上的小麦亩产量以及周围地区的小麦亩产量的抽样数据,也许我们会很果地区的小麦亩产量的抽样数据,也许我们会很果断地判定它的虚假性。一般来说,抽样调查总是断地判定它的虚假性。一般来说,抽样调查总是调查一批数据,是多参数的,各参数之间存在一调查一批数据,是多参数的,各参数之间存在一定的相关,根据历史资料等有时可以估算到相关定的相关,根据历史资料等有时可以估算到相关程度,即使是粗略估计也能有助于我们及时发现程度,即使是粗略估计也能

    44、有助于我们及时发现虚报数据虚报数据. . 在数值上利用计算机作出判断是人们感兴趣的研究课在数值上利用计算机作出判断是人们感兴趣的研究课题,它其实与对抽样的质量评估紧密地联系在一起。简单题,它其实与对抽样的质量评估紧密地联系在一起。简单地说,设地说,设 为抽样获得的数据,从这几个对象中为抽样获得的数据,从这几个对象中随机选取一个子集进行再调查,两次调查的数据分别记为随机选取一个子集进行再调查,两次调查的数据分别记为 和和 。 12,nyyy12,kiiiyyy12*,iiikyyy (1 1)比较这两组数据之间的差异,它在某种程度上可)比较这两组数据之间的差异,它在某种程度上可以鉴别真伪性,同时

    45、也对整个抽样的质量进行适当评估。以鉴别真伪性,同时也对整个抽样的质量进行适当评估。 (2 2)利用)利用 ,对总体参数的估计量为,对总体参数的估计量为 ,利用利用 对总体参数相应的估计量记为对总体参数相应的估计量记为 , 与与 之间的差异可以评估抽样推断的质量,同时也可以检之间的差异可以评估抽样推断的质量,同时也可以检测即使有虚假数据存在可能是否会影响到整体的估计。测即使有虚假数据存在可能是否会影响到整体的估计。12,nyyy12*,iiikyyyn n *k *k 在处理数据过程中,一旦发现虚假数据,在处理数据过程中,一旦发现虚假数据,通常采用的处理手段是:删去或重新调查。删通常采用的处理手

    46、段是:删去或重新调查。删去数据必须小心谨慎,如果确定是虚假数据,去数据必须小心谨慎,如果确定是虚假数据,那么毋庸置疑地剔除。但是在实际情况中有些那么毋庸置疑地剔除。但是在实际情况中有些数据看起来相当数据看起来相当“异常异常”,而且在历史资料中,而且在历史资料中似乎也从未发生过,大有似乎也从未发生过,大有“虚假虚假”之嫌,而它之嫌,而它也许是真实的。例如某县遭到史无前例的天灾,也许是真实的。例如某县遭到史无前例的天灾,那么在该年该县的农产量便会呈现极度异常值,那么在该年该县的农产量便会呈现极度异常值,像这样的虽异常但真实的数据是不应该轻易剔像这样的虽异常但真实的数据是不应该轻易剔除的,因为每一个数据为我们提供了一定的信除的,因为每一个数据为我们提供了一定的信息,轻易地丧失信息将严重地威胁到估计的精息,轻易地丧失信息将严重地威胁到估计的精度。度。

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:第八章-非抽样误差.课件.ppt
    链接地址:https://www.163wenku.com/p-3002881.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库