社会统计学课件-(1).pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《社会统计学课件-(1).pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 社会 统计学 课件
- 资源描述:
-
1、社会统计学第一讲:导论社会学与社会统计学一、社会统计学的发展统计学的两大流派:数理统计学派和社会统计学派数理统计学派的原创始人是比利时的A 凯特靳,其最大的贡献就是将法国的古典概率引入统计学,用纯数学的方法对社会现象进行研究;社会统计学派的首倡者是德国的K 克尼斯,他认为统计研究的对象是社会现象,研究方法为大量观察法。凯特勒比利时物理学家、统计学家。论人类、概率论书简、社会物理学概率论引入统计学;大数定律分析社会复杂现象偶然性中的规律性;误差理论解决统计的准确性问题;平均人:模特:平均身高、体重、智力、道德品质。社会所有人与平均人没有差异时,社会矛盾趋于缓和。统计学的任务就是关于平均人的比较研
2、究。社会统计学社会统计学以德国为中心;克里斯首创认为社会统计学是一门社会科学,研究社会变动与规律性研究对象是社会总体而不是个体,大量观察、研究内在联系,才能揭示其规律性。社会统计学的两大流派社会指标学派描述统计学派社会指标用来测定某一社会要素状态的统计量。社会指标举例:恩格尔系数基尼系数痛苦指数社会指标体系洛伦兹曲线(1)洛伦茨曲线(2)市场总发货值的百分比与市场中由小到大厂商的累积百分比之间的关系。洛伦茨曲线的弧度越小,基尼系数也越小。收入分配越是趋向平等,劳伦茨曲线的弧度越小,基尼系数也越小,反之,收入分配越是趋向不平等,劳伦茨曲线的弧度越大,那么基尼系数也越大。如果个人所得税能使收入均等
3、化,那么,基尼系数即会变小。联合国有关组织规定:若低于0.2表示收入绝对平均;0.2-0.3表示比较平均;0.3-0.4表示相对合理;0.4-0.5表示收入差距较大;0.6以上表示收入差距悬殊。二、社会学不社会统计学1、社会学研究的重要环节课题-了解课题-假设-术语-问卷-调查-校核-统计分析(例:对中学升学率的调查研究)统计分析的目标2、在社会研究中的运用统计分析要注意的问题1)要把握社会调查资料的特点:随机性、规律性2)要把握社会统计分析自身的特点:操作化定义、收集资料的对象3)要把握统计分析的前提是否满足:资料的信度和效度;资料收集的科学性;资料在总体中的分布。统计分析中常见的错误1、混
4、淆统计联系与因果关系根据观测数据得到的统计联系(如相关关系)只是因果关系存在的必要条件,而不是充分条件。2、事后解释错误将探测性研究或描述性研究得到的理论假设反过来作为假设检验来看待。统计分析中常见的错误3、生态学错误混淆宏观模式与微观模式。如:教育、经济水平越高的地区生育水平越低,不能引申为个人教育水平与生育水平的关系。4、还原论错误根据较低层次研究单位的分析结果推断较高层次单位的运行规律。统计分析中常见的错误5、混淆统计检验显著与实际意义显著统计检验是否显著相对于以下三个条件:实际差异幅度、置信度、抽样规模。如果样本规模很大,在降低置信度要求的情况下,统计检验会很显著,但实际意义不大。三、
5、统计分析方法的选择全面调查与抽样调查的分析方法不同全面调查统计描述抽样调查统计推论单变量与多变量的分析方法不同单变量集中与分散特征多变量相关性(有时需要将多个指标合并。合并方法)不同层次变量的分析方法不同定类变量定序变量定距变量定比变量(思考与练习:大学生校外租房现状调查。方法?变量?)例:中学升学率调查课题确定:升学率差异较大;学生择校初探:收集文献,前人研究;咨询相关人员;典型个案观察(好坏各2-3所中学)假设:构思影响因素:1、师资专业水平,2、学生入学水平,3、父母教育水平;师资水平高入学成绩好父母教育水平高升学率高升学率高升学率高续例操作化定义:如,师资:学历、职称、获奖等;学生水平
6、:考分、地域、性别等;父母水平:学历、职业、教育子女的时间等(注意:每一个定义就是一个变量,要注意变量的各种可能取值) 设计问卷:依操作化定义而定。三个方面:基本资料;态度;原因。(课外练习:设计一份问卷调查表)续例实施调查:地点、抽样对象、样本量、组织与培训、实施。(要注意地域的代表性和抽样的随机性)校核与登录统计分析与检验:资料统计由计算机完成统计分析:1、假设检验;2、相关分析;3、结论对策与建议;或提出新的假设几种主要的指标合幵法1、类型法:将指标交互分类如:代际职业地位流动:两个指标2、指数构成法:用简明的公式来综合各项指标如:失业率;人均住房占有率;3、尺度法:依据指标之间的关系来
7、计算总值,是研究对象高低有序。如:传统生育态度评分定类变量按某一个品质特征将总体单位划分若干个类型;有属性之分,无大小、程度之分两个原则:互斥原则;穷尽原则。如:性别;婚姻。定类-定类:列联表;定类-定序:非参数检验;定类-定距:方差分析;定序变量初级定量测定除类别、属性之分外,还有等级、秩序之分如:教育程度;社会经济地位定序-定序:等级相关定距变量除定类、定序外,取值之间有标准化的量度可进行加减运算,但不能进行乘除运算典型例子:智商测定定距-定距:回归与相关定比变量除定类、定序、定距之特征外,取值可构成一个有意义的比例有一个绝对固定的、非任意的零点可进行乘除运算绝大多数经济变量可进行定比测定
8、如:年龄;收入;第二讲单变量统计描述一、分布(xi ni) x的要求:(1)完整性(2)互斥性n:频次分布P:概率分布%:百分比分布如: 性别 xi男女人数ni56例:某校学生的父亲职业职业干部工人农民总数n110152228550p0.2000.2760.5241.000%20.027.652.4100.0二、统计表统计表的制作要注意的问题:1、标题、内容简明2、统计栏数多时,要加编号3、数字填写要求:位数对准,同栏数字、小数位要一致,相同数字不可以写“同上”,无数字栏用“”,缺资料“”4、表中数字用同一单位时,标在右上角5、表的左右两端不封闭判断练习:分别制作定类、定序、定距变量统计表注意
9、:统计表的分组科学性问题项目名称人数百分比球类田径游泳赛车150100607060302020判断:学校对最喜爱体育项目调查:判断:学生成绩变化调查开学初期末成绩好中差%108010提高608075下降101010不变301015三、统计图圆瓣图。反映所占比例;使用于定类;条形图。定类:离散长条;定序:紧挨长条或离散长条;宽度无意义;直方图。紧挨长条;宽度有意义;适用于定距;高度:频次密度=频次/组距折线图。直方图顶点中心相连;要计算组中心值。50403020100看一看,这是一个什么东东?90807060第一季度 第二季度 第三季度 第四季度东部西部北部四、频数统计cf:向上累计。小于某一数
10、字的频数cf:向下累计。大于某一数字的频数年龄151618人数369cf3918cf18159计量资料频数表的编制计量资料频数表的编制一般情况下,样本含量小于30的统计资料无须编制频数表,但对于大样本含量的资料,编制频数表有利于进一步的统计分析、且频数表本身也具有统计描述的作用.求出极差确定组段数确定组距列出各个组段确定每一组段频数选极差即最大值与最小值之差一般 815 之间其他组段只标出下限。根据变量值大小把各观察单位归入各个组段编制频数表的步骤编制频数表的步骤第一组段包括极小值,最后一组段包括极大值,除最后一组段可同时标出上下限,组距=R/组段数,但一般取一方便计算的数字编制频数表步骤流程
11、图160.8129.4丼例举例说明计量资料频数表的编制过程某地 13 岁女孩 118 人的身高(cm)资料143.3147.2135.4138.1138.1137.9*148.6149.8135.5147.5156.3144.8148.5147.1148.1148.1143.5145.0143.1149.8136.1151.3142.0144.5139.1143.8143.9135.4142.1136.5143.3135.4141.2134.1141.3139.8144.5140.5141.5147.8149.8145.0157.6149.8146.4143.7142.5145.7138.51
12、38.5*139.9154.6144.6143.7138.9143.8144.9145.5139.3146.2145.2155.2148.7148.7137.5146.7152.3149.5152.2149.5144.8146.8146.8138.9139.5153.2143.5139.2141.8147.5145.0141.1147.5142.3148.9140.9140.6146.5150.0142.6150.8140.3146.4150.6140.5150.9151.8150.7144.5132.5143.5143.5146.3138.5141.2140.9139.9145.5145.6
13、148.6142.9146.8146.5131.5142.5142.5续例步骤如下:R=160.8-129.4=31.4。组段数=10;组距=R/10=3.1430(cm);按要求确定每一组段上下限。分组统计每一组段的频数,编制频数表。续例身高组段(1)129132135138141144147150153156159162合计频数(2)228202625209321118组中值(3)130.5133.5136.5139.5142.5145.5148.5151.5154.5157.5160.5计量资料频数分布表118 例 13 岁女孩身高(cm)资料频数表。频数分布表的用途频数分布表的用途揭示
14、数值变量频数分布的类型和特征作为陈述资料的形式便于发现一些特大或特小的可疑值便于进一步的统计分析计量资料频数分布的类型和特征分布特征集中趋势:指频数表中频数分布表现为频数向某一位置集中的趋势离散趋势:指频数虽然向某一位置集中,但频数分布表现为各组段都有频数分布,而不是所有频数分布在集中位置的趋势。分布类型对称分布:各组段的频数以中间组段为中心,左右两侧基本对称偏态分布:各组段的频数不以中间组段为中心,而是一侧偏多或偏少计量资料频数分布的类型和特征五、集中值三种方法找集中值:频次;居中;平均;想一想:社会经济生活中有哪些集中值?1、众值M0频数最多的变量值,适合于单峰对称。2、中位值Md数据序列
15、中央位置之值。未分组数据:1)根据原始资料求中位值奇数时:中位值=(N+1)/2偶数时:中位值=中间位置左右两位数的平均值为中位值。2)根据频次分布求中位值未分组资料:首先确定中位值的位置(利用cf ),第二步找中位值。分组资料:四步求值方法1、找50%区间2、找上界U、下界L;U%L%3、求累计50%的变量值X4、中位值=L+X50%L%U%L%XU L例:某农村妇女初婚年龄求中位值注意:真实组界的问题年龄16-1818-2020-22频次305020频率30%50%20%cf30%80%100%3、均值适用于定距变量,能综合反映频次、次序、数值大小变化未分组数据1)直接累加:算术平均 例2
16、)根据频次:加权平均均值=分组数据:以中心值来代替变量值,但有误差例。inixN例:调查某地6户农民家庭和5户干部家庭,每户人数如下:农民家庭:6;4;4;8;6;3;干部家庭; 4;2;3;3;5;求均值。例:青年人每年阅读书本数调查,求均值。书数2-45-78-1011-1314-1617-19总数人数245321171)根据原始资料 六、标志变异指标测定离散趋势,考察资料的分散特征1、异众比率非众值的比例越小,则众值的代表性越大。例2、极差 R=观察最大值-观察最小值 例3、四分互差 Q=Q75Q25例1 例24、方差、 与标准差未分组m0N fN 2(xi x)2 标准差 =N 2iN
17、ni x2 (ni xi)21N2)根据频次分布: 例:第三讲概率论概率论的产生和发展概率论产生于十七世纪,本来是随保险事业的发展而产生的,但是来自于赌博者的请求,却是数学家们思考概率论中问题的源泉。早在1654年,有一个赌徒梅累向当时的数学家帕斯卡提出一个使他苦恼了很久的问题:“两个赌徒相约赌若干局,谁先赢 m局就算赢,全部赌本就归谁。但是当其中一个人赢了 a (am)局,另一个人赢了 b(b0P(=1) 0 p2)P(=0)+ P(=1)=q+p=13)二点分布的期望与方差E()=0 q+1 p=pD()= E(2) ( E)2=02 q+12 p2= p p27、二分变量中取值0和1只表
18、示定类变量的编码,这种变量又称虚拟变量。变量的取值只有两类 ;x 0代码:0、1 ;1pqpRn nnn nPn nn1nm1P第二节 排列不组合一、排列1、重复排列:2、非重复排列:3、全排列mmmn!nm!nn n!例:任选5个数字,可组成多个编号?30人的班级,任意安排2人担任正副班长,有多少种排法?5种户型的住房,分给5人,有多少种分配方案?二、组合:例:家庭成员共8人,问有多少对人际关系?(2人形成一对人际关系,且与方向无关)PPCmnmmmnn!m!nm!nn1 nm1m!第三节 二项分布一、二项分布(n:实验次数 P:A在每次实验中出现的概率)P x1、与二点分布的区别将同样的实
19、验或观察,独立的重复n次例:连续投掷硬币四次2、推广: xCn Px 1Pnx3、二次分布的定义:n次实验中事件A出现次 数的概率分布。简写为:Bn, pP0 mCnp qPm nCnp qPa bCnp q二、变量在某一取值区间的概率1)A至多出现m次的概率2)A至少出现m次的概率3)A出现次数不少于a不大于b的概率nxxxmx0nxmnxxxbxanxxx例:教师中吸烟的比例为50%,随机抽查教师10人,求概率:1、全不吸烟2、1人吸烟3、至少2人吸烟4、2-4人吸烟ExP xxCnp qD E E npq三、二项分布的数学期望nxxx n pn nx0 x05、二项分布的方差等于2 26
20、、查表方法例:根据生命表,年龄为60岁的人,可望活到下年的概率P=0.95。设某单位年龄为60岁的人共有10人,问:(1)其中有9人活到下年的概率为多少(2)至少有9人活到下年的概率为多少(3)至多有9人活到下年的概率为多少Px Px PxP 1x1P 2x21P 1 P 2 1 2第四节 多项分布以三项分布作为研究对象,依此类推1 2 31 2 3n!x1!x2!x3!三项分布: Px1,x2,x31 2 3因为:x1 x2 x3 nP P P 1所以,三项分布也可写成:nx xn!x1!x2!n x1 x2Px1,x2例:1、某班有学员30名,其中兄弟民族13 名。任抽5名,求其中兄弟民族
21、人数的概率分布。2、一批产品共20件,其中6件不合格。任抽3件,求不合格产品的概率分布。第五节 超几何分布1、适用条件:小群体研究2、例:设小组共有10名成员,7男3女。从中任抽3名,求其中男性人数的概率分布。C CC超几何分布的概念及公式设总体性质共分为两类:A类和非A类。总体总数N。A类共有m个,从中任抽n个(nN-m),则n中含有A类个数“”的概率分布为(x=0,1,)当N很大,n较小时,超几何分布近似二项分布。nNxmnxNmP x第六节 泊松分布一、公式:它是二项分布(n,p)的极限分布,只有一个参数 。ePxx!D E E x x! e 泊松分布参数的实际内容为它是其分布的数学期望
22、 或方差。应用:设在填写居民身份证1000张卡片中,共发现错字300个,问每张居民身份证出现错字数的概率分布如何?二、泊松分布的性质1、泊松分布为离散型随机变量分布,取值为0和一切正整数。X=0,1,2,2、泊松分布的数学期望和方差xx0 x! 22 2 2x0 x续前3、当P0.1,甚至在n不必很大的情况下,这种近似也存在,当n10时,这种近似程度就很好了例题已知某校有5%的学生是贫困生,随机抽出50人,求下列情况的概率:1、至多2位贫困生2、至少1位贫困生解设贫困生数为X,则Xb(50,0.05),n很大,p很小,近似服从泊松分布。 =50*0.05=2.51、查累积泊松分布表,p(x2)
23、=0.54382、p(x1)=1-p(x=0)=0.9179续泊松分布的性质4、泊松分布适合稀少事件的研究,也就是P值都很小的情况。对于事件流,如果满足以下三个条件:1)稳定性:概率规律在时间上是不变的2)独立性:在不相交的时间间隔内,发生两个以上事件是 相互独立的3)普遍性:在同一瞬间内,发生两个以上事件是不可能的。则:随机事件发生次数的概率分布满足泊松发分布。如:同一地点的交通事故。例某城市一交叉路口每年平均发生交通事故5起,如果交通事故的发生服从泊松分布,在指定的一年内以下交通事故发生的概率是多少?1、8次或以上 2、不多于2次 3、3-11之间第五讲正态分布、常用统计分布和极限定理第一
24、节 正态分布一、中心极限定理对于任何变量,不管其分布如何,如果把它们几个加在一起,当n大于一定数之后,那么其和的分布必然接近正态分布。二、正态分布(常态分布、高斯分布)1、分布密度曲线特征:1)曲线是单峰,有一个最高点2)曲线在高峰处有一个对称轴。在轴的左右两边是对称的。(对称轴x= )3)曲线无论是向左或向右延伸,都会愈来愈接近横轴,但不会和横轴相交,以横轴为渐进线。2、正态分布的众值、中位值和均值三者是重叠的。x3、正态分布的概率密度22 212xe(和为两个变量) 一定: 增大,图形右移; 减小,图形左 不变, 值改变: 越小,图形越尖瘦。4、两个参数 不 对曲线形态的影响2移。但形状不
25、变。2的影响增大,图形右移; 减小,图形左移。但形状不变。的影响越小,图形越尖瘦E xxdx (数学期望)D5、 不的含义x2xdx (标准差)三、正态曲线下的面积我们把正太曲线看做是一种极限的直方图。它的组距甚小,以至中心值顶点的连线已是一条平滑的曲线。而正太曲线下的面积,实际就是由这无数个小直方形拼接而成的。每小块面积=长宽= xixi Pxi xi 面积的概率分析2 xi2 xi 因此任意两点 x1 x2 曲线下的概率,就是把从x1到x2点所有这些小块面积加起来: x2ix1当 xi 0 ,任意两点之间的概率为x2x1Px1 x2 xdx取值区间的概率值任意两点x1x2间的概率为:x2x
展开阅读全文