统计建模-数据描述分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《统计建模-数据描述分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 统计 建模 数据 描述 分析 课件
- 资源描述:
-
1、概率统计建模李新民数学科学学院概率统计建模题n(1)CUMCM1993-B:足球队排名问题;足球队排名问题;n(2)CUMCM2001-B:公交车调度问题;公交车调度问题;n(3)CUMCM2002-B:彩票中的数学问题;彩票中的数学问题;n(4)CUMCM2004-D:公务员招聘问题;公务员招聘问题;n(5)CUMCM2005-A:长江水质的评价和预测问题;长江水质的评价和预测问题;n(6)CUMCM2006-B:艾滋病疗法评价与预测问题;艾滋病疗法评价与预测问题;n(7)CUMCM2007-A:中国人口预测问题中国人口预测问题n(8)CUMCM2008-D:NBA赛程的分析与评价问题赛程的
2、分析与评价问题n(9)CUMCM2009-B:眼科病床的合理安排眼科病床的合理安排n(10)CUMCM2010-B:上海世博会影响分析与评价上海世博会影响分析与评价n(11)CUMCM2011-A:城市表层土壤重金属污染分析城市表层土壤重金属污染分析n(12)CUMCM2012-A:葡萄酒的评价葡萄酒的评价n(13)CUMCM2013-A:车道被占用对城市道路通行能力的影响车道被占用对城市道路通行能力的影响主要内容n统计软件及描述性统计n回归分析n方差分析n多元统计分析统计软件及描述性统计SPSS统计软件非专业统计人员的首选统计软件SPSS采用类似EXCEL表格的方式输入与管理数据,数据接口较
3、为通用,能方便的从其他数据库中读入数据。其统计过程包括了常用的、较为成熟的统计过程,完全可以满足非统计专业人士的工作需要。SPSS的功能n样本数据的描述和预处理;n假设检验(包括参数检验、非参数检验及其他检验);n方差分析n相关分析n回归分析n聚类分析n判别分析n因子分析n时间序列分析SPSS的窗口类型n数据编辑窗口n程序编辑窗口n输出窗口n简式输出窗口1、数据编辑窗口:(1)启动SPSS直接进入 (2)文件新建数据文件 File/New/Data 2、程序编辑窗口: 文件新建语句文件 File/New/Syntax3、输出窗口: 现实统计方法运行输出的结果,对输出结果可以进行模块裁剪、编辑、
4、存档等n利用频数分析可以方便地对数据按组进行归纳整理,对变量的数据有一个整体上的认识。(1)建立数据文件:例)建立数据文件:例1.sav(2)选择统计方法:)选择统计方法:AnalyzeDescriptive StatisticsFrequencies,送入变量,点击确定,送入变量,点击确定(3)输出结果:)输出结果:例例1:对某大学:对某大学10名学生测量他们的血压名学生测量他们的血压x,得到如下数据,得到如下数据:120 120 120 134 128 102 130 132 126 126 频数分析其他:描述统计分析Descriptive等 ,图表SPSS统计图条图条图散点图散点图线图线
5、图直方图直方图饼图饼图面积图面积图箱式图箱式图正态正态Q-QQ-Q图图正态正态P-PP-P图图质量控制图质量控制图ParetoPareto图图自回归曲线图自回归曲线图高低图高低图 交互相关图交互相关图序列图序列图频谱图频谱图误差线图误差线图 统计图汇总n在对数据进行深入加工之前,在对数据进行深入加工之前,总应该对数据有所印象。总应该对数据有所印象。n可以借助于图形和简单的运算,可以借助于图形和简单的运算,来了解数据的一些特征。来了解数据的一些特征。n由于数据是从总体中产生的,由于数据是从总体中产生的,其特征也反映了总体的特征。其特征也反映了总体的特征。对数据的描述也是对其总体的对数据的描述也是
6、对其总体的一个近似的描述。一个近似的描述。 一、定量变量的图表示一、定量变量的图表示: 1.直方图直方图n对于一个定量变量,比如某个地区对于一个定量变量,比如某个地区(地区(地区1)测量了)测量了163个高三男生的身个高三男生的身高高(S3height1.txt)。n用图形来表示这个数据,使人们能够用图形来表示这个数据,使人们能够看出这个数据的大体分布或看出这个数据的大体分布或“形状形状”的一个办法是画的一个办法是画直方图直方图(histogram)。n图图1就是利用这个数据由就是利用这个数据由SPSS软件所软件所画的直方图。画的直方图。图3.1 地区1高三男生身高的直方图200.0195.0
7、190.0185.0180.0175.0170.0165.0160.0155.0150.0Std. Dev(标准差)=10.91,Mean(均值)=170.9,N(人数)=163403020100该图的横坐标是身高区间,这里每一格代表该图的横坐标是身高区间,这里每一格代表5cm的身高范围(格子的身高范围(格子宽度因不同的数据性质或要求而定,这里的格子宽度为宽度因不同的数据性质或要求而定,这里的格子宽度为5cm),而),而纵坐标为各种身高区间的身高的频数。纵坐标为各种身高区间的身高的频数。 直方图直方图2.盒型图盒型图n简单一些的是简单一些的是盒形图盒形图(boxplot,又称,又称箱图、箱线图
8、、盒子图箱图、箱线图、盒子图)。n图图2的左边一个是根据地区的左边一个是根据地区1高三男生高三男生的身高数据所绘的盒形图;其右边的的身高数据所绘的盒形图;其右边的图代表另一个地区(地区图代表另一个地区(地区2)的高三)的高三学生的身高。学生的身高。175163N =地区地区2地区1高三男生身高210200190180170160150140323259250248596158盒型图盒型图盒子的中间横线是数据的中位数盒子的中间横线是数据的中位数(median),封闭盒子的上下两横线,封闭盒子的上下两横线(边)为上下四分位数(点);按照(边)为上下四分位数(点);按照SPSS的默认选项,如果所有的
9、默认选项,如果所有样本中的数目都在离四分位点样本中的数目都在离四分位点1.5倍盒子长度之内,则线的端点为倍盒子长度之内,则线的端点为最大和最小值,否则线长就是最大和最小值,否则线长就是1.5倍的盒子长度(盒子长度称为四倍的盒子长度(盒子长度称为四分位间距),在其外面的度量单独点出分位间距),在其外面的度量单独点出3.茎叶图茎叶图 n在直方图和盒形图中,很难恢复数据在直方图和盒形图中,很难恢复数据的原貌。而另一种图:的原貌。而另一种图:茎叶图茎叶图(stem-and-leaf plots)可以恢复数据可以恢复数据n以地区以地区1高三男生身高为例(图高三男生身高为例(图3),),茎叶图既展示了分布
10、形状又有原始数茎叶图既展示了分布形状又有原始数据。它象一片带有茎的叶子。茎为较据。它象一片带有茎的叶子。茎为较大位数的数字,叶为较小位数的数字。大位数的数字,叶为较小位数的数字。茎叶图茎叶图其中茎叶图中茎的单位为其中茎叶图中茎的单位为10cm,而叶子单位为,而叶子单位为1cm。比如,由于。比如,由于第一行茎为第一行茎为150cm,因此叶子中的九个数字,因此叶子中的九个数字001223344代表九个数代表九个数目目150、150、151、152、152、153、153、154、154cm等。每等。每行左边有一个频数(比如第一行有行左边有一个频数(比如第一行有9个数目,第二行有个数目,第二行有17
11、个等等);个等等);可以看出最长的一行为从可以看出最长的一行为从165cm到到169cm的一段(有的一段(有35个数)。个数)。4.散点图散点图 n数据会有两个变量,如美国男士和女数据会有两个变量,如美国男士和女士初婚年限数据(士初婚年限数据(marriage.txt)。)。n该数据描述了自该数据描述了自1900年到年到1998年男年男女第一次婚姻延续的时间。女第一次婚姻延续的时间。n这里年份是一个变量,婚姻延续时间这里年份是一个变量,婚姻延续时间是第二个变量。由于不可能将所有人是第二个变量。由于不可能将所有人的婚姻年限都给出来,所以每年就取的婚姻年限都给出来,所以每年就取了一个中间的值了一个
12、中间的值(中位数中位数)作为代表。作为代表。散点图散点图二、二、 定性变量的图表示:定性变量的图表示: 1.饼图饼图n定性变量(或属性变量,分类变定性变量(或属性变量,分类变量)不能点出直方图、散点图或量)不能点出直方图、散点图或茎叶图,但可以描绘出它们各类茎叶图,但可以描绘出它们各类的比例。的比例。n下面用下面用SPSS绘的图绘的图5(饼图,(饼图,pie chart)表示了说世界各种主要语表示了说世界各种主要语言人数的比例言人数的比例.饼图饼图2.条形图条形图n而用同样数据画的图而用同样数据画的图6称为称为条形条形图(图(bar chart)。n从每一条可以看出讲各种语言从每一条可以看出讲
13、各种语言的实际人数,而且分别给出了的实际人数,而且分别给出了每个语种中母语和日常使用的每个语种中母语和日常使用的人数(在图中并排放置)。条人数(在图中并排放置)。条形图显示比例不如饼图直观。形图显示比例不如饼图直观。条形图条形图三、统计量三、统计量n可用少量所谓汇总统计量或可用少量所谓汇总统计量或概括概括统计量统计量(summary statistic)来描来描述定量变量的数据。述定量变量的数据。n这些数字是从样本数据得来的,这些数字是从样本数据得来的,因而也是样本的函数,因而也是样本的函数,n任何样本的函数,只要不包含总任何样本的函数,只要不包含总体的未知参数,都称为体的未知参数,都称为统计
14、量统计量(statistic)。n样本的随机性决定统计量的随机样本的随机性决定统计量的随机性(统计量也是随机变量)性(统计量也是随机变量)1. 数据的数据的“位置位置”-集中程度集中程度数据有位置吗?数据有位置吗?这里三个数据的位置一样吗?这里三个数据的位置一样吗?n“位置位置”一般是关于数据中某变量一般是关于数据中某变量观测值的观测值的“中心位置中心位置”或者数据或者数据分布的中心(分布的中心(center或或center tendency)。)。n和这种和这种“位置位置”有关的统计量就有关的统计量就称为称为位置统计量位置统计量(location statistic)。n位置统计量当然不一定
15、都是描述位置统计量当然不一定都是描述“中心中心”了,比如后面要讲的了,比如后面要讲的k百百分位数(或分位数(或k分位数)。分位数)。n最常用的位置统计量:最常用的位置统计量:算术平均数算术平均数,它在,它在统计中叫做均值统计中叫做均值(mean);严格地说叫做样;严格地说叫做样本均值本均值(sample mean),以区别于总体均,以区别于总体均值。值。n如果记样本中的观测值为如果记样本中的观测值为x1,xn,则样本,则样本均值定义为均值定义为n(样本样本)中位数中位数(median) 是数据按照大小排列之是数据按照大小排列之后位于中间的那个数后位于中间的那个数(如如果样本量为奇数果样本量为奇
展开阅读全文