第2章-SAS的描述统计功能课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第2章-SAS的描述统计功能课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- SAS 描述 统计 功能 课件
- 资源描述:
-
1、1第三次课第三次课应用软件应用软件(SAS)2主要内容主要内容一、一、了解了解SAS中描述性统计量中描述性统计量 1. 了解描述性统计的概念了解描述性统计的概念 2. 掌握掌握SAS中常见的描述性统计量中常见的描述性统计量二、在二、在SAS中计算统计量中计算统计量 1. 用用“INSIGHT”计算统计量计算统计量 2. 用用“分析家分析家”计算统计量计算统计量 3. 编程计算统计量编程计算统计量第二章第二章 SASSAS的描述统计功能的描述统计功能第二章 SAS的描述统计功能n 2.1 描述性统计的基本概念描述性统计的基本概念n 2.2 在在SAS中计算统计量中计算统计量n 2.3 统计图形统
2、计图形第二章第二章 SASSAS的描述统计功能的描述统计功能2.1 描述性统计的基本概念描述性统计的基本概念n 一、统计学的基本概念一、统计学的基本概念n 二、表示数据位置的统计量二、表示数据位置的统计量n 三、表示数据分散程度的统计量三、表示数据分散程度的统计量n 四、表示数据分布形状的统计量四、表示数据分布形状的统计量n 五、其它统计量五、其它统计量5对数据进行频数统计、计算特征统计量、将数据图对数据进行频数统计、计算特征统计量、将数据图形化的过程。形化的过程。描述性统计:描述性统计:目的:目的:为了揭示数据的集中趋势、分散程度、和数据分布为了揭示数据的集中趋势、分散程度、和数据分布形态,
3、展示极端数据,形态,展示极端数据,最后作出说明现象本质的初步结论。最后作出说明现象本质的初步结论。一、统计学的基本概念一、统计学的基本概念1. 总体与样本总体与样本总体总体(population): 所研究对象的全体组成的集合。所研究对象的全体组成的集合。样本样本(sample): 从总体中抽取的部分对象(个体)组成的集合。从总体中抽取的部分对象(个体)组成的集合。 样本中包含个体的个数称为样本中包含个体的个数称为样本容量样本容量。 样本常用样本常用n个随机变量个随机变量X1,X2,Xn表示,表示, 其观测值(样本数据)则表示为其观测值(样本数据)则表示为x1,.,xn第二章第二章 2.1 描
4、述性统计的基本概念描述性统计的基本概念2. 参数与统计量参数与统计量参数参数(parameter): 是用来描述总体特征的概括性值。是用来描述总体特征的概括性值。 如总体平均值(如总体平均值()、总体方差()、总体方差( 2)。)。 统计量统计量(statistics):第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念是用来描述样本特征的概括性值。是用来描述样本特征的概括性值。x2s如样本均值(如样本均值( )、样本方差()、样本方差( )、)、样本比例(样本比例( P )等。)等。二、表示数据位置的统计量二、表示数据位置的统计量 一组观测数据一组观测数据x1,.,xn, 常见的
5、位置统计量:常见的位置统计量:均值,中位数,分位数,众数均值,中位数,分位数,众数1. 均值(均值(Mean) 均值是所有观测值的平均值,是描述数据取值中均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:心位置的一个度量:nxxxnxnnii 111第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念2. 中位数(中位数(Median或或Med)中位数是描述观测值数据中心位置的统计量,中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。大体上比中位数大(小)的数据为观测值的一半。优点:优点:它不受个别极端数据的影响,具有稳健性。它不受个别极端
6、数据的影响,具有稳健性。中位数的计算方法是:中位数的计算方法是:首先将数据从小到大排序为:首先将数据从小到大排序为:x(1),.,x(n),然后计算:然后计算: 为偶数为偶数为奇数为奇数中位数中位数nxxnxnnn )(21 )()()(12221第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念3. 众数(众数(Mode)观测值中出现观测值中出现最多最多的数称为众数。的数称为众数。4. 百分位数(百分位数(Percentile) 分位数也是描述数据分布和位置的统计量。分位数也是描述数据分布和位置的统计量。0.5分位数分位数就是中位数,就是中位数,0.75分位数和分位数和0.25分
7、位数又分别称为分位数又分别称为上、下四分上、下四分 位数位数,并分别记为,并分别记为Q3和和Q1。第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念三、表示数据分散程度的统计量三、表示数据分散程度的统计量1. 极差极差(Range)与)与半极差半极差(Interquartile range) 极差极差 = maxxi minxi 极差就是数据中的最大值和最小值之间的差极差就是数据中的最大值和最小值之间的差半极差半极差= Q3 Q1, 半极差描述了中间半数观测值的散布情况半极差描述了中间半数观测值的散布情况2. 方差方差(Variance或或Var) 方差反映了观测值与均值的偏离程度
8、方差反映了观测值与均值的偏离程度111221122 nxxxxxxnsnnii)(.)()(第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念3. 标准差标准差(Standard deviation或或Std Dev) 方差的开方称为标准差:方差的开方称为标准差: 标准差的量纲与原变量一致。标准差的量纲与原变量一致。4. 变异系数变异系数(Coefficient of Variation或或CV) 变异系数是将标准差表示为均值的百分数,是观变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测测数据分散性的一个度量,它在比较用不同单位测量的数据的分散
9、性时是有用的量的数据的分散性时是有用的.2ss (%)100 xsCV 第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念四、四、表示数据分布形状的统计量表示数据分布形状的统计量描述数据分布形状的指标:描述数据分布形状的指标:偏度偏度,峰度峰度1. 偏度(偏度(skewness) 偏度是刻画数据对称性的指标偏度是刻画数据对称性的指标 关于均值对称的数据其偏度为关于均值对称的数据其偏度为0; 左侧更为分散的数据,其偏度为负,称为左偏;左侧更为分散的数据,其偏度为负,称为左偏; 右侧更为分散的数据,其偏度为正,称为右偏。右侧更为分散的数据,其偏度为正,称为右偏。 niisxxnnnSK
10、1321)()(第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念2. 峰度(峰度(kurtosis) 峰度描述数据向分布尾端散布的趋势。峰度描述数据向分布尾端散布的趋势。 利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等假定正态分布的方差与所研究分布的方差相等))()()()()()(32133211214 nnnsxxnnnnnKnii第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念 近似于标准正态分布,则峰度接近于零;近似于标准正态分布,则峰度接近于零; 尾部较正态分布更分散,则峰
11、度为正,称为轻尾;尾部较正态分布更分散,则峰度为正,称为轻尾; 尾部较正态分布更集中,则峰度为负,称为厚尾。尾部较正态分布更集中,则峰度为负,称为厚尾。五、其它统计量五、其它统计量1. 均值的标准误差均值的标准误差(Std Error Mean或或Std Mean或或Std error)2. 校正平方和校正平方和(Corrected sum of squares) niixxnnns1211)()(Mean Std niixxCSS12)(第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念3. 未校正平方和未校正平方和(Uncorrected sum of squares) nii
12、xUSS12,.,2111 kxnAnikik,.,)(3211 kxxnBnikik第二章第二章 2.1 描述性统计的基本概念描述性统计的基本概念4. k阶原点矩阶原点矩其中其中A1即为均值即为均值x5. k阶中心矩阶中心矩第二章第二章 SASSAS的描述统计功能的描述统计功能2.2 在在SAS中计算统计量中计算统计量 n 一、一、 用用 INSIGHT 计算统计量计算统计量n 二、二、 用用“分析家分析家”计算统计量计算统计量n 三、三、 编程实现描述性统计编程实现描述性统计二、用二、用INSIGHT计算统计量计算统计量1. 实例数据实例数据【例例2-1】下表为两个不同地区居民家庭收入和支
13、出下表为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),情况的抽样调查(单位:元),试分别就两个地区的家庭收入和支出情况做描述统试分别就两个地区的家庭收入和支出情况做描述统计。计。家庭家庭编号编号地区地区编号编号家庭家庭总收入总收入家庭家庭总支出总支出家庭家庭编号编号地区地区编号编号家庭家庭总收入总收入家庭家庭总支出总支出1 12 2179417941550155016162 222002200206020602 22 2171617161365136517171 127302730223622363 31 1341034102730273018181 124962496145514
14、554 42 2176517651530153019191 117601760104010405 52 2218421841900190020201 128202820236623666 62 2205020502050205021212 222502250196619667 72 2246024602184218422221 131703170240024008 81 1197619761170117023232 212001200125012509 91 1285028502496249624242 2177617761350135010101 1427542752760276025252
15、 2198019801794179411112 2201020101275127526261 1245524552550255012121 1223622361810181027272 2108010801380138013131 1330533052820282028282 2198619861200120014141 1240024001976197629291 1336933692305230515152 2225022501970197030302 2153015301316131620 将数据通过将数据通过Excel导入到导入到SAS数据集数据集Sasuser.Exam2_1,4个变
16、量名分别为:个变量名分别为:ID、R_ID、Income和和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。和家庭总支出。2. 在在INSIGHT中打开数据集中打开数据集 在菜单中选择在菜单中选择“Solution ”“Analysis”“Interactive Data Analysis ”,打开打开“SAS/INSIGHT Open”对话框,对话框,在对话框中选择数据集:在对话框中选择数据集: Sasuser.Exam2_1 ,单击单击“Open” ,即可在,即可在INSIGHT中打开数据窗口。中打开数据窗口。3. 计算统计
17、量计算统计量 选择菜单选择菜单“Analyze”“Distribution (Y)”,打开打开“Distribution (Y)”对话框。对话框。在数据集在数据集Exam2_1的变量列表中,的变量列表中,选择选择Income为分析变量,选择为分析变量,选择R_Id为分组变量。为分组变量。 选择选项选择选项矩统计量和分位数矩统计量和分位数,单击,单击“OK”按钮,按钮,可得到变量可得到变量Income按按“R_Id”分组的各种矩统计量分组的各种矩统计量(Moments)和分位数()和分位数(Quantiles)。)。24二、用二、用“分析家分析家”计算统计量计算统计量1. 启动启动“分析家分析家
18、”选择主菜单选择主菜单“Solutions(解决方案)(解决方案)”“Analysis(分析)(分析)”“Analyst(分析家)(分析家)”,打开打开“分析家分析家”窗口。窗口。 选择主菜单选择主菜单“File(文件)(文件)” “Open By SAS Name”,打开,打开“Select A Member”对话框,选择数据集对话框,选择数据集Sasuser.Exam2_1 。2. 通过通过Summary Statistics菜单计算描述性统计量菜单计算描述性统计量选择主菜单选择主菜单“Statistics(统计)(统计)” “Descriptive(描述性统计)(描述性统计)” “Sum
19、mary Statistics(汇总统计量)(汇总统计量)”,选择变量列表中的选择变量列表中的Income,单击,单击“Analysis”按钮,按钮,选定分析变量,如图所示。选定分析变量,如图所示。单击单击“Statistics”按钮,打开按钮,打开“Summary Statistics:Statistics”对话框。对话框。283. 通过通过Distributions菜单计算描述性统计量菜单计算描述性统计量 选择主菜单选择主菜单“Statistics(统计)(统计)” “Descriptive(描述性统计)(描述性统计)” “Distributions(分布)(分布)”,打开打开“Distr
20、ibutions”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击,单击“Analysis”按钮,选定分析变量。按钮,选定分析变量。 三、编程实现描述性统计三、编程实现描述性统计 SAS提供有多个不同的过程来实现统计量的计算提供有多个不同的过程来实现统计量的计算 FREQ、 MEANS、 UNIVARIATE FREQ过程过程常用来计算分类变量取值的常用来计算分类变量取值的频数频数, MEANS和和UNIVARIATE过程过程则对数值型变量计则对数值型变量计算算均值、标准差均值、标准差等统计量。等统计量。1. FREQ过程过程 FREQ过程格式如下:过程格式如下: PROC
21、FREQ DATA = ; TABLES ; RUN; PROC FREQ语句调用语句调用FREQ过程,标志过程,标志FREQ过过程的开始;程的开始; TABLES语句语句用于创建有关变量所构成的各种表用于创建有关变量所构成的各种表格并进行相应的假设检验和计算。格并进行相应的假设检验和计算。例如,统计数据集例如,统计数据集Sasuser.Exam2_1中变量中变量R_Id和和Income频数的代码如下:频数的代码如下:proc freq data = sasuser.Exam2_1; tables R_Id Income;run; 332. MEANS过程过程(1)MEANS过程的一般格式过程
22、的一般格式:PROC MEANS DATA=; VAR ; BY ; CLASS ;RUN;注意:注意: (1) 默认情况下,默认情况下,MEANS过程会给出过程会给出频数、均数、频数、均数、标准差、最大值和最小值标准差、最大值和最小值等,等,其余统计量的计算均需要在选项中指定。其余统计量的计算均需要在选项中指定。 (2) VAR语句语句引导所要进行分析的所有变量的列引导所要进行分析的所有变量的列表,表,SAS将对将对VAR语句所引导的所有变量分别进行语句所引导的所有变量分别进行描述性统计分析。描述性统计分析。 (3) BY语句与语句与CLASS语句所指定的分类变量用来语句所指定的分类变量用来
23、进行分组统计,但输出格式不同。进行分组统计,但输出格式不同。 如对数据集如对数据集Sasuser.Exam2_1中的中的Income变量计变量计算简单统计量,只要用如下算简单统计量,只要用如下MEANS过程:过程:proc means data = Sasuser.Exam2_1; var Income;run; SAS中描述性统计量关键字及其含义见下表中描述性统计量关键字及其含义见下表关键字关键字所代表的含义所代表的含义关键字关键字所代表的含义所代表的含义n n有效数据记录数有效数据记录数rangerange极差极差nmissnmiss缺失数据记录数缺失数据记录数skewnessskewne
24、ss偏度偏度meanmean均值均值kurtosiskurtosis峰度峰度stdstd标准差标准差t t分布位置假设检验之分布位置假设检验之t t统计量统计量stderrstderr标准误标准误probtprobt上述上述t t统计量对应的概率值统计量对应的概率值varvar方差方差q1q1第一四分位数第一四分位数medianmedian中位数中位数q3q3第三四分位数第三四分位数modemode众数众数qrangeqrange四分位数间距四分位数间距cvcv变异系数变异系数p1p1第一百分位数第一百分位数maxmax最大值最大值p5p5第五百分位数第五百分位数minmin最小值最小值p10
25、p10第十百分位数第十百分位数sumsum总计总计p90p90第九十百分位数第九十百分位数sumwgtsumwgt加权值总计加权值总计p95p95第九十五百分位数第九十五百分位数csscss校正平方和校正平方和p99p99第九十九百分位数第九十九百分位数ussuss未校正平方和未校正平方和(2) 使用使用CLASS语句和语句和BY语句语句 使用使用CLASS语句和语句和BY语句可以分组计算分析变语句可以分组计算分析变量的描述统计量值,量的描述统计量值,两个语句的区别是:两个语句的区别是: BY语句要求数据集须按语句要求数据集须按BY变量排序,变量排序,CLASS语句无此要求。语句无此要求。 B
展开阅读全文