sas应用教程的课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《sas应用教程的课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- sas 应用 教程 课件
- 资源描述:
-
1、STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程第二章 SAS的描述统计功能n2.1 描述性统计的基本概念描述性统计的基本概念n2.2 在在SAS中计算统计量中计算统计量n2.3 统计图形统计图形STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n2.1 2.1 描述性统计的基本概念描述性统计的基本概念n2.1.1 统计学的基本概念统计学的基本概念n2.1.2 表示数据位置的统计量表示数据位置的统计量n2.1.3 表示数据分散程度的统计量表示数据分散程度的统计量n2.1.4 表示数据分布形状的统计量表示数据分布形状的统计量n2.1.
2、5 其它统计量其它统计量STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.1 统计学的基本概念统计学的基本概念1.1.总体与样本总体与样本 总体总体(population):总体是指所研究对象的全体组成:总体是指所研究对象的全体组成的集合。的集合。样本样本(sample):样本是指从总体中抽取的部分对象:样本是指从总体中抽取的部分对象(个体)组成的集合。样本中包含个体的个数称为样本(个体)组成的集合。样本中包含个体的个数称为样本容量。容量为容量。容量为n的样本常用的样本常用n个随机变量个随机变量X1,X2,Xn表示,其观测值(样本数据)则表示为表示,其观测
3、值(样本数据)则表示为x1,.,xn,为,为简单起见,有时不加区别。简单起见,有时不加区别。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.参数与统计量参数与统计量 参数参数(parameter):参数是用来描述总体特征的概括性:参数是用来描述总体特征的概括性值。如总体平均值(值。如总体平均值()、总体方差()、总体方差(2)、总体比例)、总体比例()等。)等。统计量统计量(statistics):统计量是用来描述样本特征的概:统计量是用来描述样本特征的概括性值。如样本均值(括性值。如样本均值()、样本方差()、样本方差(s2)、样本比)、样本比例(例(
4、P)等。)等。xSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.2 表示数据位置的统计量表示数据位置的统计量 如果要用简单的数字来概括一组观测数据如果要用简单的数字来概括一组观测数据x1,.,xn,可以使用可以使用“位置统计量位置统计量”来作为数据的总体代表,常见来作为数据的总体代表,常见的位置统计量有:均值、中位数、分位数、众数等。的位置统计量有:均值、中位数、分位数、众数等。1.1.均值(均值(MeanMean)均值是所有观测值的平均值,是描述数据取值中心位均值是所有观测值的平均值,是描述数据取值中心位置的一个度量:置的一个度量:nxxxnxnnii
5、111STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.中位数(中位数(MedianMedian或或MedMed)中位数是描述观测值数据中心位置的统计量,大体上中位数是描述观测值数据中心位置的统计量,大体上比中位数大(小)的数据为观测值的一半。中位数的一比中位数大(小)的数据为观测值的一半。中位数的一个优点是它不受个别极端数据的影响,具有稳健性。中个优点是它不受个别极端数据的影响,具有稳健性。中位数的计算方法是:首先将数据从小到大排序为:位数的计算方法是:首先将数据从小到大排序为:x(1),.,x(n),然后计算,然后计算为偶数为奇数中位数nxxnxnnn
6、 )(21 )12()2()21(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.众数(众数(ModeMode)观测值中出现最多的数称为众数。众数用得不如均值观测值中出现最多的数称为众数。众数用得不如均值和中位数普遍。在属性变量分析中,常需考虑频数,因和中位数普遍。在属性变量分析中,常需考虑频数,因此众数用得多些。此众数用得多些。4.4.百分位数(百分位数(PercentilePercentile)分位数也是描述数据分布和位置的统计量。分位数也是描述数据分布和位置的统计量。0.5分位分位数就是中位数,数就是中位数,0.75分位数和分位数和0.25分位数又
7、分别称为上、分位数又分别称为上、下四分位数,并分别记为下四分位数,并分别记为Q3和和Q1。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.3 表示数据分散程度的统计量表示数据分散程度的统计量1.1.极差(极差(RangeRange)与半极差()与半极差(InterquartileInterquartile range range)极差就是数据中的最大值和最小值之间的差:极差就是数据中的最大值和最小值之间的差:极差极差=maxxi minxi 上、下四分位数之差上、下四分位数之差Q3 Q1称为四分位极差或半极称为四分位极差或半极差,它描述了中间半数观测值的
8、散布情况。差,它描述了中间半数观测值的散布情况。2.2.方差(方差(VarianceVariance或或VarVar)方差是由各观测值到均值距离的平方和除以观测量减方差是由各观测值到均值距离的平方和除以观测量减1:1)(.)()(11221122nxxxxxxnsnniiSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.标准差(标准差(Standard deviationStandard deviation或或Std DevStd Dev)方差的开方称为标准差:方差的开方称为标准差:标准差的量纲与原变量一致。标准差的量纲与原变量一致。4.4.变异系数(变异
9、系数(Coefficient of VariationCoefficient of Variation或或CVCV)变异系数是将标准差表示为均值的百分数,是观测数变异系数是将标准差表示为均值的百分数,是观测数据分散性的一个度量,它在比较用不同单位测量的数据据分散性的一个度量,它在比较用不同单位测量的数据的分散性时是有用的:的分散性时是有用的:2ss(%)100 xsCVSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.4 表示数据分布形状的统计量表示数据分布形状的统计量 偏度和峰度是描述数据分布形状的指标。偏度和峰度是描述数据分布形状的指标。1.1.偏度(
10、偏度(skewnessskewness)偏度是刻画数据对称性的指标。偏度的计算公式为:偏度是刻画数据对称性的指标。偏度的计算公式为:在在SAS中:中:关于均值对称的数据其偏度为关于均值对称的数据其偏度为0;左侧更为分散的数据,其偏度为负,称为左偏;左侧更为分散的数据,其偏度为负,称为左偏;右侧更为分散的数据,其偏度为正,称为右偏。右侧更为分散的数据,其偏度为正,称为右偏。niisxxnnnSK13)()2)(1(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.峰度(峰度(kurtosiskurtosis)峰度描述数据向分布尾端散布的趋势。峰度的计算公峰度
11、描述数据向分布尾端散布的趋势。峰度的计算公式为:式为:利用峰度研究数据分布的形状是以正态分布为标准利用峰度研究数据分布的形状是以正态分布为标准(假定正态分布的方差与所研究分布的方差相等)比较(假定正态分布的方差与所研究分布的方差相等)比较两端极端数据的分布情况,若两端极端数据的分布情况,若 近似于标准正态分布,则峰度接近于零;近似于标准正态分布,则峰度接近于零;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更分散,则峰度为正,称为轻尾;尾部较正态分布更集中,则峰度为负,称为厚尾。尾部较正态分布更集中,则峰度为负,称为厚尾。)3)(2()1(3)()3)(2)(1()1(214nnn
12、sxxnnnnnKniiSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.1.5 其它统计量其它统计量1.1.均值的标准误(均值的标准误(Std Error MeanStd Error Mean或或Std MeanStd Mean或或Std Std errorerror)2.2.校正平方和(校正平方和(Corrected sum of squaresCorrected sum of squares)niixxnnns12)()1(1 MeanStdniixxCSS12)(STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.未
13、校正平方和(未校正平方和(Uncorrected sum of squaresUncorrected sum of squares)4.4.k k阶原点矩阶原点矩其中其中A1即为均值即为均值 。5.5.k k阶中心矩阶中心矩niixUSS12,.2,1,11kxnAnikikx,.3,2,)(11kxxnBnikikSTATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程n2.2 2.2 在在SASSAS中计算统计量中计算统计量n2.2.1 用用INSIGHT计算统计量计算统计量n2.2.2 用用“分析家分析家”计算统计量计算统计量n2.2.3 编程实现描述性统计编程实
14、现描述性统计STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.1 用用INSIGHT计算统计量计算统计量 INSIGHT可以非常方便地计算各种统计量。可以非常方便地计算各种统计量。1.1.实例数据实例数据【例例2-1】表表2-1为两个不同地区居民家庭收入和支出情为两个不同地区居民家庭收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况的抽样调查(单位:元),试分别统计收入和支出情况。况。将表将表2-1中数据通过中数据通过Excel导入到导入到SAS数据集数据集Mylib.sryzc中,中,4个变量名分别为:个变量名分别为:ID、R_ID、Inco
15、me和和Outgo,相应的标签名为家庭编号、地区编号、家庭总收入和家相应的标签名为家庭编号、地区编号、家庭总收入和家庭总支出。庭总支出。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程家庭编号地区编号家庭总收入家庭总支出家庭编号地区编号家庭总收入家庭总支出121794155016222002060221716136517127302236313410273018124961455421765153019117601040522184190020128202366622050205021222501966722460218422131702400811976117
16、023212001250912850249624217761350101427527602521980179411220101275261245525501212236181027210801380131330528202821986120014124001976291336923051522250197030215301316STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.在在INSIGHTINSIGHT中打开数据集中打开数据集 在菜单中选择在菜单中选择“Solution(解决方案)(解决方案)”“Analysis(分析)(分析)”“Interacti
17、ve Data Analysis(交互式数据(交互式数据分析)分析)”,打开,打开“SAS/INSIGHT Open”对话框,在对对话框,在对话框中选择数据集:话框中选择数据集:Mylib.sryzc,单击,单击“Open(打(打开)开)”按钮,即可在按钮,即可在INSIGHT中打开数据窗口,如图中打开数据窗口,如图所示。所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.计算统计量计算统计量 选择菜单选择菜单“Analyze(分析)(分析)”“Distribution(Y)(分布)(分布)”,打开,打开“Distribution(Y)”对话框。在数据
18、对话框。在数据集集sryzc的变量列表中,选择的变量列表中,选择Income为分析变量,选择为分析变量,选择R_Id,为分组变量。,为分组变量。单击单击“Output(输出)(输出)”按钮,在打开的对话框中包按钮,在打开的对话框中包含描述性统计量选项。含描述性统计量选项。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 选择选项矩统计量和分位数,取消默认的选项:选择选项矩统计量和分位数,取消默认的选项:“Box Plot/Mosaic Plot”和和“Histogram/Bar Chart”,单击单击“OK”按钮,即可得到变量按钮,即可得到变量Income按按“
19、R_Id”分分组的各种矩统计量(组的各种矩统计量(Moments)和分位数()和分位数(Quantiles),),如图所示。如图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.2 用用“分析家分析家”计算统计量计算统计量1.1.启动启动“分析家分析家”选择主菜单选择主菜单“Solutions(解决方案)(解决方案)”“Analysis(分析)(分析)”“Analyst(分析家)(分析家)”,打开,打开“分析家分析家”窗口。窗口。选择主菜单选择主菜单“File(文件)(文件)”“Open By SAS Name”,打开,打开“Select A Mem
20、ber”对话框,选择数据对话框,选择数据集集Mylib.sryzc。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.通过通过Summary StatisticsSummary Statistics菜单计算描述性统菜单计算描述性统计量计量 选择主菜单选择主菜单“Statistics(统计)(统计)”“Descriptive(描述性统计)(描述性统计)”“Summary Statistics(汇总统计(汇总统计量)量)”,打开,打开“Summary Statistics”对话框,选择变对话框,选择变量列表中的量列表中的Income,单击,单击“Analysi
21、s”按钮,选定分析按钮,选定分析变量,如图所示。变量,如图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程单击单击“Statistics”按钮,打开按钮,打开“Summary Statistics:Statistics”对话框。对话框中列出可以计算的所有统计对话框。对话框中列出可以计算的所有统计量(如右图所示)。量(如右图所示)。描述性统计量如下图所示。描述性统计量如下图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程3.3.通过通过DistributionsDistributions菜单计算描述性统计量菜单计算描述性
22、统计量 选择主菜单选择主菜单“Statistics(统计)(统计)”“Descriptive(描述性统计)(描述性统计)”“Distributions(分布)(分布)”,打开,打开“Distributions”对话框,选择变量列表中的对话框,选择变量列表中的Income,单击单击“Analysis”按钮,选定分析变量。按钮,选定分析变量。单击单击“OK”按钮,即可得到关于变量按钮,即可得到关于变量Income的矩统的矩统计量和基本统计测度计量和基本统计测度STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.2.3 编程实现描述性统计编程实现描述性统计 SAS提供
23、有多个不同的过程来实现统计量的计算,它提供有多个不同的过程来实现统计量的计算,它们在功能范围上有许多的重复,下面介绍用们在功能范围上有许多的重复,下面介绍用FREQ、MEANS和和UNIVARIATE这三个过程来计算简单的描述这三个过程来计算简单的描述统计量。统计量。FREQ过程常用来计算分类变量取值的频数,而过程常用来计算分类变量取值的频数,而MEANS和和UNIVARIATE过程则对数值型变量计算均值、过程则对数值型变量计算均值、标准差等统计量。标准差等统计量。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程1.FREQ1.FREQ过程过程 FREQ过程包括
24、多个控制频数输出与检验的语句和选过程包括多个控制频数输出与检验的语句和选项,格式如下:项,格式如下:PROC FREQ DATA=;TABLES ;FORMAT .;RUN;其中其中PROC FREQ语句调用语句调用FREQ过程,标志过程,标志FREQ过程的开始;过程的开始;TABLES语句用于创建有关变量所构成的各种表格并语句用于创建有关变量所构成的各种表格并进行相应的假设检验和计算,可以多次使用。进行相应的假设检验和计算,可以多次使用。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 例如,统计数据集例如,统计数据集Mylib.sryzc中变量中变量R_Id
25、和和Income频数的代码如下:频数的代码如下:proc freq data=mylib.sryzc;tables R_Id Income;RUN;显示结果如图所示。显示结果如图所示。STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程2.MEANS2.MEANS过程过程(1)语法格式语法格式 MEANS过程的一般格式过程的一般格式:PROC MEANS DATA=;VAR;BY;CLASS;RUN;STATSTATSTATSTATSASSAS软件与统计应用教程软件与统计应用教程 PROC MEANS语句后的选项主要用来指定所要计算语句后的选项主要用来指定所要计算的
展开阅读全文