第讲警惕统计陷阱课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第讲警惕统计陷阱课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 警惕 统计 陷阱 课件
- 资源描述:
-
1、现代社会调查方法现代社会调查方法第九讲第九讲 警惕统计陷阱警惕统计陷阱蒙提霍尔问题/三门问题Monty Hall problem 出自美国的电视游戏节目Lets Make a Deal。问题名字来自该节目的主持人蒙提霍尔。参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。那么问题来了:换另一扇门会否增加参赛者赢得汽换另一扇门会否增加参赛者赢得汽车的概率?车的概率?参赛者选择汽车(1/
2、3概率)参赛者选择A羊(1/3概率)主持人挑出任一只羊主持人必须挑出B羊参赛者选择B羊(1/3概率)主持人必须挑出A羊参赛者最初选择时有1/3的相同概率选择汽车、A羊和B羊,转换后的获胜概率为2/3。解释:解释:当你从三扇门中选了门1后,这扇门后面有奖的几率是1/3,另两扇门是2/3。但接下来主持人给了你一个线索。如果奖品在门2后,主持人将会打开门3;如果奖品在门3后,他会打开门2。所以如果你改选的话,只要奖品在门2或门3后你就会赢,两种情况你都会赢!但是如果你不改选,只有当奖品在门1后你才会赢。总结:总结:概率存在于被给予的条件下,概率不概率存在于被给予的条件下,概率不能寄托在实际的物体上。
3、能寄托在实际的物体上。霍桑效应Hawthorne Effect 20世纪20年代,位于美国芝加哥城郊外的西方电器公司的霍桑工厂,是一家制造电话机的专用工厂,它设备完善,福利优越,具有良好的娱乐设施、医疗制度和养老金制度。但是工人仍然愤愤不平,生产效率也很不理想。为此,1924年美国科学院组织了一个包括各方面专家在内的研究小组,对该厂的工作条件和生产效率的关系,进行考察和实验,就此拉开了著名的霍桑实验的序幕。1927年至1933年,由哈佛大学心理家乔梅约(George Mayo)教授为首的研究小组进行了第二回合的实验研究。实验最开始研究的是工作条件与生产效率之间的工作条件与生产效率之间的关系关系
4、,包括外部环境影响条件(如照明强度、湿度)以及心理影响因素(如休息间隔、团队压力、工作时间、管理者的领导力)。研究意外发现,各种试验处理对生产效率都有促各种试验处理对生产效率都有促进作用进作用,甚至当控制条件回归初始状态时,促进作用仍然存在。这一现象发生在每一名受试验者身上,对于受试验者整体而言,促进作用的结论亦为真。显然,实验假设的各项条件并非是唯一的或决定性的生产效率影响因素。对此,梅奥团队所做的解释是,受试者对于新的实验测试会产生正向反应,即由于环境改变(研究者的出现)而改变行由于环境改变(研究者的出现)而改变行为。为。所以绩效的提高,并非由实验条件造成,而绩效的提高,并非由实验条件造成
5、,而是自身的反应。是自身的反应。这一效果即所谓的“霍桑效应霍桑效应”。由于受到额外的关注而引起绩效或努力上由于受到额外的关注而引起绩效或努力上升的情况我们称之为升的情况我们称之为“霍桑效应霍桑效应”,也就是所谓的“宣泄效应”。在此之前的管理学把人假设为“经济人”,认为金钱是刺激积极性的唯一动力;霍桑实验首次证明了人是“社会人”,是复杂的社会关系的成员,因此,要调动工人的生产积极性,还必须从社会、心理方面去努力。统计数字会撒谎How to Lie with Statistics 作者:美 达莱尔哈夫(Darrel Huff)统计数字会撒谎1.内在有偏内在有偏的样本的样本2.精心挑选精心挑选的平均
6、数的平均数3.没有披露没有披露的数据的数据4.毫无意义毫无意义的工作的工作5.令人惊奇令人惊奇的图形的图形6.一维图形一维图形的滥用的滥用7.不完全匹不完全匹配的资料配的资料8.相关关系相关关系的误解的误解9.如何如何反驳反驳统计资料统计资料1.内在有偏的样本内在有偏的样本 The sample with the built-in bias示例示例1:“6月15日,人工智能公司iPIN.com在北京发布了2015年中国大学薪酬排行榜,清华大学高居榜首,复旦大学和上海财经大学分列二三位。据介绍,这份薪酬排行榜是根据来自招聘和猎头根据来自招聘和猎头公司的公司的4000万大学毕业生真实毕业去向数据分
7、析万大学毕业生真实毕业去向数据分析所得所得,由各大学毕业五年薪酬指数计算所得毕业五年薪酬指数计算所得。”转自新浪教育频道,2015年6月16日示例示例2:“近年来,湖南衡阳亲子鉴定人数越来越多。衡阳市中心医院病理科法医伍先生介绍,去年1月至今年7月,前来咨询做亲子鉴定的前来咨询做亲子鉴定的约有约有100例,其中不是亲生的占例,其中不是亲生的占35%。亲子鉴定35%非亲生,如果这个数据确凿,确实令人惊讶。尽管社会的开放度提升了,但这个比例实在太高了。这个问题非常严重,一定要想办法解决。”潇湘晨报 2013年7月28日示例示例3:“据杜蕾斯的一项全球调查显示,男人一生男人一生平均有平均有13个性伴
8、侣,而女人的(性伴侣)只个性伴侣,而女人的(性伴侣)只有有7个。个。”男人真的比女人花心?转自搜狐网男人频道,2013年1月11日小结:小结:究竟调查了多少样本?多少人愿意回答调查问卷?调查问卷基本是那些现在还能取得联系而且愿意回答这些问题的人“垄断”,基本没什么意义。你只能调查你看得到的你只能调查你看得到的人们在回答问题的时候也不会真的说真话,可能会美化自己的形象,或者迎合提问者的偏好。人格面具不可避免(尤其是面访时)人格面具不可避免(尤其是面访时)无论如何,只要有可能的误差(有形的、只要有可能的误差(有形的、无形的),你都应该对结论保持怀疑的态无形的),你都应该对结论保持怀疑的态度。度。可
9、以刻意造成的误差:调查对象的年龄层、调查地点(大商场大多是年轻人,高级酒店大多是商务人士)、调查时间(早、晚)。场景要匹配场景要匹配从总体中抽出的样本(第一次抽样)远不从总体中抽出的样本(第一次抽样)远不能称为随机抽样,因此可能对所有的总体能称为随机抽样,因此可能对所有的总体都不具有显著的代表性。都不具有显著的代表性。被调查的样本是否具有代表性,是否能代被调查的样本是否具有代表性,是否能代表未参加调查的样本?表未参加调查的样本?统计中会出现两种趋势:夸大和缩小统计中会出现两种趋势:夸大和缩小。两种趋势相互抵消的可能性极小。一般,一种趋势会强过另一种趋势,我们很难猜测哪种趋势胜出根据样本得到的结
10、论,不会比样本更精确。根据样本得到的结论,不会比样本更精确。看到精确的统计数据时,要思考统计的过程是什么样的。为了确保结论有价值,要采用有代表性的为了确保结论有价值,要采用有代表性的样本,这样才能排除各种误差。样本,这样才能排除各种误差。心理学家说:人都点神经质从病例的数量来看,确实可以证明 但病人在正常人中的比例是多少,正常人是不看心理医生的最基本的样本是随机样本,它是指完全遵最基本的样本是随机样本,它是指完全遵循随机选择从总体中选出的样本循随机选择从总体中选出的样本,总体即形成样本的母体。随机样本的检验方法是,总体中的每个名总体中的每个名字或事物是否有相同的几率被选进样本?字或事物是否有相
11、同的几率被选进样本?纯随机样本是唯一有足够把握经受统计理纯随机样本是唯一有足够把握经受统计理论审查的样本论审查的样本,样本选取难度大,成本昂贵。分层随机抽样是一个更经济的替代品分层随机抽样是一个更经济的替代品,通过准备好内部所有单位的名单,只调查被随机抽中的单位。示例示例4:1936年,共和党人兰登与当时的总统罗斯福竞选下届总统美国,文学文摘(Literary Digest)这家颇有声望的杂志承担了选情预测的任务。此前,它已经成功地预测了5次总统选举的结果。当时采用的是邮寄问卷的办法,调查人员雄心勃勃,从电话号码簿里和本杂志的订户中选取了需要邮寄问卷的对象1000万个,覆盖四分之一的选民。杂志
12、最终收到了惊人的240万份回执,在统计计算完成以后,它预言兰登将击败寻求连任的罗斯福总统,然而这次调查的结论和实际的结果大相径庭,结果却是罗斯福以压倒多数再次当选。2.精心挑选的平均数精心挑选的平均数 The well-chosen average示例示例1:“2012年底,城镇和农村人均人均住房面积住房面积32.9平方米、平方米、37.1平方平方米米,分别比2007年增加2.8平方米和5.5平方米。”温家宝:政府工作报告,第十二届全国人大一次会议,2013年3月25日质疑:质疑:“32.9平方米”这个数字表明我国“全面小康”中含金量最大的一块住房小康已经基本实现(主要指标为:到2010年城镇
13、人均住房建筑面积达到30平米,到2020年达到35平米),标志着我国城镇居民的住房问题基本解决。真相果真如此吗?又被平均了?这并非“民生话题”,而是一个再简单不过的“算术问题”。让我们来算一算 根据国家统计局2012年度统计年报,到2012年底,“全国大陆总人口为135404万人,其中城镇人口为城镇人口为71182万万人人”。71182万乘以人均32.9平方米的住房面积,意味着全国城镇到2012年底拥有的全部住房应该为2341887.8万平方米(约234.2亿平方米)。然而,根据原建设部公布的2002年底全国城镇存量住宅面积,加上中国统计年鉴公布的2003-2012年全国城镇住宅竣工的总面积,
14、可得全国全国城镇总的住宅总面积为城镇总的住宅总面积为155.49亿亿平方米平方米。可知,用官方公布的统计数据计算,城镇人均住房面积仅有21.8平方米平方米,远低于政府工作报告所称的32.9平方米。何为“平均”?提问:一条河的平均深度是0.8米,一个小孩身高1.3米,他虽然不会游泳,但肯定不会在这条河里淹死。对吗?为什么?示例示例2:富有的邻居:一个人声称社区居民的年平均收入为15万元,同时另一个人则说社区年平均收入是 3.5万元。两个人都对,为什么?邻居邻居年收入(万元)年收入(万元)老张100老李22.5老王8老赵6老钱4老孙3老杨2老吴2老周1.5老郑1均值均值15万万中位数中位数3.5万
15、万众数众数2万万小结:小结:三者关系:三者关系:平均数(Arithmetic mean)为一个平衡点,是一组数据的重心。它使数轴保持平衡,即支点两侧的力矩是相等的。中位数(Median)只使其两侧的数据个数相同。众数(Mode)是指次数出现最多的,重量较大的那个数据。正态分布的钟型曲线,三个数落在相同点上。正态分布的钟型曲线,三个数落在相同点上。例如人类身高、体型订制校服订制校服长尾曲线(偏态分布),三种数值相差甚长尾曲线(偏态分布),三种数值相差甚远。远。三者比较:三者比较:比较的比较的项目项目平均数平均数中数中数众数众数适用数据类适用数据类型型定距、定比定序、定距、定比定类、定序、定距、定
16、比计算计算需要所有的数据只需中间数据计算迅速计算迅速进一步运算进一步运算特性特性可以不可以不可以受抽样的影受抽样的影响响较少较大较大受分组的影受分组的影响响不大较大最大最大受极端数据受极端数据的影响的影响最严重最严重最少一般适用场合适用场合一般情况都用平均数有极端数据时;当两端数据或个别数据不清楚时;快速估计代表值时。有极端数据时;数据不同质找典型;快速估计代表值时;估计分布形态时。示例示例3:“截至2011年8月,中国家庭资产平均为121.69万元,城市家庭平均为247.60万元,农村家庭平均为37.70万元。”中国家庭金融调查与研究中心:中国家庭金融调查报告,2012年3.没有披露的数据没
展开阅读全文