1、应 用 统 计 学江南大学 颜节礼第1章 绪论1.1 什么是统计学1.2 统计学的产生和发展1.3 统计学研究中的基本概念1.4 统计研究中变量的分类一个假想的例子导入 假如有人问你,上海市居民收入状况怎么样?数据:根据国家统计局上海调查总队调查,2014年上海市城镇居民人均可支配收入47710元。数据的信息隐藏了那些信息?比较 纵向:2013年,人均可支配收入的43851元增长8.8%;横向:2014年,全国平均是19867.2元,2.4倍;结构:47710元人均可支配收入中,工资性收入30629元,占64.2%,经营净收入2345元,占4.9%,财产性收入846元,占1.8%,转移性收入1
2、3890,占29.1%,关系:收入与学历、性别、行业、年龄等因素有关吗?结论:统计数据中隐含了各种信息,只有通过数字对比才能“读懂”数据所包含的信息。数字对比方式包括:横向对比、纵向对比、结构对比、关系探究等等。1.1 什么是统计学1.1.1 统计的几个定义1.1.2 统计的研究方法1.1.3 避免误用统计学1.1 什么是统计学1.1.1 统计的几个定义:根据韦伯斯特国际辞典(第3版)给出的统计定义:统计是一门收集、分析、解释和提供数据的科学。该定义清晰的说明了统计的研究过程,即统计工作的四个阶段:统计数据的收集、统计数据的整理和分析、统计数据所反映的可能存在的统计规律的解释以及提供决策支持的
3、统计数据。统计学家Mario F.Triola也给出的定义:统计指的是一组方法,用来设计试验、获得数据,然后在这些数据的基础上组织、概括、演示、分析、解释和得出结论,这一定义更侧重于在自然科学研究中的统计测量和分析。统计学、统计工作与统计资料 统计统计工作工作就是社会实践中搜集、加工、整理、分析统计数据,解释统计数据背后隐藏的客观规律的社会实践活动;统计学统计学是学科范畴,是统计工作的理论总结和方法性的指导,对于统计数据搜集、整理、分析有一套科学规范的方法,是通过系统学习可以尽快掌握的理论知识体系;统计统计资料资料就是统计工作的具体成果,包含统计数据、统计图表、统计分析咨询报告等。1.1.2
4、统计的研究方法:描述统计和推断统计 描述统计是研究数据收集、整理和描述的统计学分支,其主要内容包含:数据收集、数据整理、数据展示和数据的描述性分析。其目的主要是描述数据的分布特征、展示数据的之间的关系和规律。例如:特征值、分布图等等1.1.2 统计的研究方法:描述统计和推断统计 推断统计是研究如何利用样本数据来推断总体特征的统计学分支。推断统计即“品一瓢而知一锅之鲜”也,通过观察样本数据而推断总体数据的分布形态或者总体变量之间关系。其主要方法包括参数估计和假设检验。例如:均值的估计、假设检验 比例的估计、假设检验 回归方程的估计、假设检验描述统计和推断统计关系图统计方法描述统计推断统计参数估计
5、假设检验统计学方法的逻辑:归纳推理 认识世界的思维方式:演绎推理和归纳推理 演绎推理:通过已知命题根据严格的逻辑推理得到结论(三段 论)归纳推理:通过观察、抽象得出一般性的结论1.1.3 避免误用统计学 统计学基本上是寄生的,靠研究其他领域内的工作而生存,由解决其他领域内的问题而存在并兴旺发达这也准确的说明了统计学与其它具体学科之间的关系。如果不能解释数量关系的逻辑基础,宁可相信这只是一种数字上的巧合。在西方有一句谚语:“谎言,该死的谎言,统计数字(Lies,damned lies,and statistics)”。主要描述数字的说服能力,特别是用来讽刺一些使用统计数字支持、但毫无说服力的分析
6、报告,以及人们倾向于贬低那些不支持其立场的统计结论。如果我们抛开了统计数据背后的经济实质或忽视了分析数量关系后面的内在因果关系,则会得到许多啼笑皆非的结论。例如:每天喝3杯以上咖啡的人心脏病发病几率会增加50%(数据是观察数据还是试验数据?这能说明喝咖啡和心脏病发作之间的因果关系吗?)、在教堂结婚的比例越高则人均预期寿命越低(由英国学者根据历史数据研究发现两者之间存在负相关,但是这种数据上的负相关又能说明什么因果关系?)1.2统计学的产生和发展1.2.1.政治算术学派威廉配第1.2.2.国势学派海尔曼康令1.2.3.数理统计学派凯特勒1.2.1政治算术学派 15 至17 世纪的欧洲,在重商主义
7、的理论指导下,认为财富或价值来自于流通领域,政策上主张国家通过贸易来积累国库的贵重金属。为了给战争中的英国人鼓气,分析了三国(英、法、荷兰)间的经济实力,还提出了发展本国产业、开拓国际市场、增强殖民掠夺等政策和建议。书中大量运用了数字表达的方法,通过运用数字、重量、尺度计量和简单直观的图表。这种用数据分析说明经济问题的方法被认为是统计学不同于其他学科的本质特征,配第也被认为是经济统计学派的创始人。1.2.2 国势学派 近代欧洲各国国势学纲要,书中讲述“一国或多数国家的显著事项”,主要用对比分析的方法研究了解国家组织、领土、人口、资源财富和国情国力,比较了各国实力的强弱,为德国的君主政体服务。因
8、在德文中“国势”与“统计”词义相通,后来正式命名为“统计学”。偏重事物性质的解释,而不注重数量对比和数量计算,但却为统计学的发展奠定了经济理论基础。但随着资本主义市场经济的发展,对事物量的计算和分析显得越来越重要,该学派后来发生了分裂,分化为图表学派和比较学派。1.2.3 数理统计学派 凯特勒最先提出用数学中的大数定律作为分析社会经济现象的一种工具,通过大量观察个体事物的随机性来研究事物整体的必然规律。在费雪(R.A.Fisher,1890-1962)为代表的一批学者努力下,建立了相关回归分析、假设检验、卡方检验和F分布理论、实验设计,使数理统计学逐渐成为一门独立的、完整的学科争论实质性科学o
9、r一门方法论科学?现代统计学的发展一方面每个学派不断在独立发展,同时各个领域内研究思想和研究方法也相互借鉴。由于社会统计专门研究社会问题,而数理统计学即研究社会问题也研究自然现象,如何对统计学的研究领域加以界定就产生了争议。统计学到底是一门实质性科学还是一门方法论科学也是争论的焦点。然而现代统计学也正是在不断争论中向前推进。无论是现代自然科学还是社会科学,许多学科问题的研究已经离不开统计方法,统计学方法和理论也在解决其它学科问题过程中不断丰富。1.3 统计学研究中的基本概念1.3.1 总体和样本1.3.2 参数和统计量1.3.3 变量和变异1.3.1 总体和样本 总体(population)是
10、指客观存在的、在同一性质基础上结合起来的许多个别单位的整体,即研究对象集合,是根据研究目的和要求所确定的研究事物的全体,总体也称母体。样本(sample)是在研究中根据需要从总体中抽取的部分单位组成的集合。统计分析的目的就是要对总体的特征、不同总体间的差异等做出推断。1.3.2 参数和统计量 参数是描述总体特征的量,如反映总体数据集中趋势的总体平均数,又如某一人群的平均体重、平均身高等。还有反映总体数据变异程度的总体方差,反映不同总体变量相关关系的相关系数等。统计量是描述样本特征的量。如样本平均数、样本方差、样本相关系数等。统计量可以由样本观测值计算得到,因而是样本观测值的函数。一般来说,每一
11、个总体参数都有一个对应的样本统计量。推断统计的实质:通过统计量来认识参数1.3.3变量和变异 变量是指总体单位的标志,如人的性别、年龄,企业的产值、利润额等等。变异是指总体单位的标志值在各单位间的差异的。变异的大小反映了总体在某个标志上的同质性或差异程度的大小。变量值和变量值之间的差异、变量值之间的关系、变量值的分布规律都是统计研究的客观对象。统计分析就是分析变量的分布(变异特征)、变量的关系等等。1.4 统计研究中变量的分类1.4.1.数据的计量方法:分类变量、顺序变量和数值型变量1.4.2.数据反映的时间特征:横截面数据、时间序列数据及面板数据1.4.3.数据取得的方式:观察数据和试验数据
12、1.4.1.分类变量、顺序变量和数值型变量 分类变量(nominal variable)。顺序变量(ordinal variable)数值型变量(numerical variable)关于数据运用的说明:在统计研究中,计量层次较高的变量可以当做较低计量层次的变量使用,但是会损失一些信息。但是低层次计量的变量一般不能用作高层次计量的变量。1.4.2.横截面数据、时间序列数据及面板数据。横截面数据(cross section data):是在同一时间、不同统计单位相同统计指标组成的数据。横截面数据是按照统计单位排列的。时间序列数据(time series data):是在不同时间点上收集到的数据,
13、这类数据反映某一事物、现象等随时间的变化状态或程度。面板数据(panel data):是截面数据与时间序列数据综合起来的一种数据类型。其有时间序列和截面两个维度1.4.3.观察数据和试验数据 试验数据试验数据是在某些可控条件下,通过试验取得的数据。观察观察数据数据通常是在不可控条件下通过观察取得的数据,社会经济科学研究中更多的要依赖观察数据。试验数据和观察数据的正确运用 两种数据在分析得到结论时的差别是显而易见的。在试验中,试验环境是受到严格控制的,数据的产生一定是某一约束条件下的结果,往往通过控制条件变量观察结果变量的变化,一般来说,结果变量的变化除随机因素外可以主要解释为条件变量变化引起的,在自然科学研究中试验的方法应用非常普遍。而在社会经济研究中,结果变量的变化受多种不可控变量甚至是未知因素的影响,解释结果变量变化的原因是要相当慎重,避免错误的归结因果关系。