数据统计与分析技术.课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《数据统计与分析技术.课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 统计 分析 技术 课件
- 资源描述:
-
1、数据统计与分析技术统计软件及应用w1.1 数据的排序w1.2 数据的转置w1.3 数据的拆分w1.4 数据文件的合并w1.5 数据的选择w1.6 数据的加权w1.7 数据的转换w2.1 基本数学模型w2.2 频数分析过程w2.3 数据描述过程w2.4 数据探察过程w2.5 列联表分析过程w3.1 分组平均数的比较w3.2 单一样本t检验w3.3 独立样本t检验w3.4 配对样本t检验w4.1 相关系数w4.2 偏相关系数w4.3 距离分析w5.1 线性回归w5.2 曲线回归非 参 数 检 验w6.1 非参数检验概述w6.2 单样本检验 w6.3 独立样本差异的显著性检验w6.4 相关样本差异的
2、显著性检验 方 差 分 析w7.1 方差分析概述w7.2 方差分析的基本步骤w7.3 单因素方差分析w7.4 多因素方差分析w7.5 协方差分析聚类分析和判别分析w8.1 聚类分析和判别分析过程概述w8.2 快速样本聚类过程w8.3 分层聚类分析w8.4 判别分析主成分分析和因子分析w9.1 主成分分析 w9.2 因子分析时间序列分析w10.1 指数平滑法w10.2 季节分解法w10.3 自回归法w10.4 自回归综合移动平均模型Bye ByeBye数据的排序1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Sort Cases选项,打开对话框;3.在左边窗口选定变量名,再用箭头按钮,
3、将变量转到Sort by 窗口中;4.在Sort Order方框中,选择排序方式。数据的排序数据的排序对话框对话框数据的转置1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Transpose选项,打开对话框;3.在左边窗口选定变量名,再用箭头按钮,将变量转到Transpose窗口中;4.单击“OK”按钮,确认后,生成新的数据文件。数据的转置数据的转置对话框对话框数据的拆分1.在主菜单中单击Data菜单选项,打开该菜单条;2.单击Split File选项,打开对话框;3.选择进行拆分的方式;4.在左边窗口选定变量名,用中间箭头按钮,将变量转到Groups Based on窗口中;5.注
4、意拆分前的排序,选择两种方式。数据的拆分数据的拆分对话框对话框数据文件合并1.样本合并(横向拼接)DataMerge FilesAdd Cases2.变量合并(纵向拼接)DataMerge Files Add Variable 数据的选择1.根据逻辑关系表达式选择数据2.随机选取数据3.在给定范围内选择数据 4.用过滤器变量选择数据数据的加权1.加权(Weight)是一种通过人为方法来调节样本或数据大小的方法,在资料输入、样本分析和科学评价中经常起到举足轻重的作用。2.加权有两种情况:对变量的值加权对个案加权 对话框数据的加权数据的加权对话框对话框数据的转换1.利用Compute功能选项转换数
5、据2.利用Count功能选项转换数据3.利用Recode功能选项转换数据4.利用Automatic Recode功能选项转换数据 5.利用随机数种子转换数据基本数学模型1.1.描述集中趋势的统计量描述集中趋势的统计量:算术平均数算术平均数 调和平均数调和平均数 几何平均数几何平均数众数众数 中位数中位数2.2.描述离散趋势的统计量描述离散趋势的统计量极差极差 平均差平均差 标准差(方差)标准差(方差)标准误标准误 3.3.描述分布特征的统计量描述分布特征的统计量偏度偏度 峰度峰度 算术平均数算术平均数 算术平均数等于所有样本数据的总和除以数据个数。算术平均值是描述样本数据中心趋势最常用的统计量
6、。在分组条件下,其公式为:niiniiiffXX11标准差(方差)标准差(方差)标准差()与方差(2)是反映数据离散趋势最常用的统计量。在分组条件下,方差的公式为:niiniiiffXX1122)(标准差是方差方差的算术平方根。频数分析过程该过程可计算数据资料的各种该过程可计算数据资料的各种描述统计指标、给出变量简单频数描述统计指标、给出变量简单频数分布表、绘制几种变量分布图。分布表、绘制几种变量分布图。Analyze Descriptive Statistics Frequencies出现对话框频数分析过程对话框统计量选择对话框统计量选择对话框 数据描述过程该过程计算数据资料的各种描该过程计
7、算数据资料的各种描述统计指标,但不给出分布图。述统计指标,但不给出分布图。Analyze Descriptive Statistics Descriptives出现对话框数据描述过程对话框Options对话框 数据探察过程探索性数据分析是指对数据的初步考察,探索性数据分析是指对数据的初步考察,由描述统计指标和直观的图形组成。包括检由描述统计指标和直观的图形组成。包括检查数据错误、描述整体或分组数据的数量特查数据错误、描述整体或分组数据的数量特征和分布特征,假设检验,奇异值辨认等。征和分布特征,假设检验,奇异值辨认等。Analyze Descriptive Statistics Explore
8、出现对话框数据探察过程对话框列联表分析过程列联表是按两个标志对一组观察值进行交列联表是按两个标志对一组观察值进行交叉分组所得到的频数分布表,表中列出同时联叉分组所得到的频数分布表,表中列出同时联系于横行和纵行某特定标志名称的观察值数目,系于横行和纵行某特定标志名称的观察值数目,在表的右边栏列出各行频数的合计,在表的底在表的右边栏列出各行频数的合计,在表的底行列出各列频数的合计,在两者交叉处,即表行列出各列频数的合计,在两者交叉处,即表的右下角,列出频数总计。的右下角,列出频数总计。Analyze Descriptive Statistics Crosstabs 出现对话框列联表分析过程对话框平
9、均数分析该过程主要用于分组计算各统该过程主要用于分组计算各统计指标,也可以进行单因素随机设计指标,也可以进行单因素随机设计方差分析和线性检验。计方差分析和线性检验。Analyze Compare Means Means 出现对话框平均数分析对话框OptionsOptions对话框对话框 单一样本t检验Analyze Compare Means One Sample T Test 出现对话框 该过程用于检验样本平均数与总体平均数之间是否存在差异。单一样本t检验对话框独立样本t检验Analyze Compare Means Independent-Sample T test 出现对话框 该过程用于
10、检验两个独立样本的平均数之间是否存在差异。独立样本t检验对话框独立样本 独立样本(Independent Sample)是指两个样本彼此独立,没有任何关联。例如实验组与控制组、男生组与女生组、高收入组与低收入组、大学数学系与物理系等。但这里的独立样本是广义的独立,仅是指非关联变量。两独立的样本各接受相同的测量,研究者的兴趣在比较两批样本群在测量结果总体上是否存在差异。独立样本中,所有观测都是独立的,即具体个别样本的顺序可以变化的,与变量无关。配对样本t检验Analyze Compare Means Paired-Sample T test 出现对话框 该过程用于检验两个配对样本的平均数之间是否
11、存在差异。配对样本t检验对话框配对样本 配对样本(Paired Sample)或相关样本(Correlated Sample),指两个样本的观测值之间彼此有关联,如同一批被试者接受两种实验条件,即同一批观测对象接受两种不同的测量。对于此类样本,研究者所感兴趣的是二次测量之间是否存在差异。如实验前和实验后的测量,即具体个别样本的顺序不可以变化的。相关分析相关分析 相关分析是研究两变量之间的关系。相关模型包括皮尔逊(Pearson)、斯皮尔曼(Spearman)和肯特尔(Kendall)三种子模型。相关模型要求X、Y变量都是随机变量,并都呈正态分布。满足上述正态分布的定量数据可用Pearson相关
12、模型。对于定序、计数数据、对于不满足正态分布的数据,则非参数检验模型,即Spearman和Kendall相关模型。相关分析相关分析相关过程调用:AnalyzeCorrelate Bivariate:PearsonPearson相关模型相关模型 Pearson相关系数计算公式:22)()()(YYXXYYXXriiii r是最常用的相关系数偏相关系数偏相关系数 多个变量之间的相关关系是错综复杂的,任何两个变量之间都有简单相关关系,而这种相关关系中夹杂了其他变量所带来的影响。固定其他因素,而计算某两个因素之间的相关系数称为偏相关系数。偏相关系数偏相关系数相关过程调用:AnalyzeCorrelat
13、e Partial:距离分析距离分析 对于更复杂数据资料之间的关系,可利用距离分析来进行研究。距离分析通过计算各样本点之间的距离,来观测样本之间的相似或不相似程度,从而可进一步进行聚类分析、因子分析和多维分析。一元线性回归多元线性回归可化为线性回归的非线性回归 多元回归的方法多元回归的方法线性回归过程调用:AnalyzeRegression Linear Regressionx:可控制或可精确观测得到的数据的变量;:可控制或可精确观测得到的数据的变量;Y:与:与x具有相关关系的随机变量。具有相关关系的随机变量。xi(i=1,2,n)yi(i=1,2,n)数据对(样本值):数据对(样本值):(x
14、i,yi)i=1,2,n 散点图散点图(Scatter Graph)假定假定Y与与x具有线性相关关系:具有线性相关关系:(xi,yi)bxaY其中,其中,是数学期望为是数学期望为0的随机变量,的随机变量,假假设设 满足正态分布,于是:满足正态分布,于是:bxaYEx1,x2,xr:r个可控制或可精确观测得到的数据的变量;个可控制或可精确观测得到的数据的变量;Y:与:与x1,x2,xr具有相关关系的随机变量。具有相关关系的随机变量。假定假定Y与与x1,x2,xr具有线性相关关系:具有线性相关关系:rrxbxbxbbY.22110其中,其中,是数学期望为是数学期望为0的随机误差,且满足正态分布。的
15、随机误差,且满足正态分布。对于对于n组样本观察值(组样本观察值(nr):):xi1,xi2,xir (i=1,2,n)yi(i=1,2,n)多元线性回归模型为:多元线性回归模型为:niExbxbxbbyiiirriii,.,2,10.22110其中,其中,i互不相关。互不相关。1.Enter(全回归法)2.Stepwise(逐步回归法)3.Remove(剔除法)4.Backward(向后回归法)5.Forward(向前回归法)引入自变量的显著性水平引入自变量的显著性水平 1剔除自变量的显著性水平剔除自变量的显著性水平 2对不在方程中的对不在方程中的自变量能否引入?自变量能否引入?对已在方程中的
16、对已在方程中的自变量能否剔除?自变量能否剔除?能能否否能能否否buayxuxbay得到令,1buavyvxuxbay得到1,11令方法:变量替换方法:变量替换bxaey 若若a0,则令,则令v=lny,得到:,得到:bxav ln若若a0,则令,则令v=lny,u=lnx,得到(,得到(a0情况类推):情况类推):buav lnxbaylog令令u=logx,得到:,得到:buay令令v=logy,得到:,得到:bxaylogbxavxbayloglog令令u=logx,v=logy,得到:,得到:buavxbeay1令:令:yveux1得到:得到:buav 客观实现中各因素之间呈现线性关系的
17、现象并不很多,更多的是呈现曲线关系,这时应采用非线性回归分析。非线性回归模型包括两种形式:一是可线性化的,如二次曲线模型、对数模型等;一是不可线性化的,如逻辑曲线模型。SPSS提供了拟合各种常用曲线模型的功能。线性回归过程调用:AnalyzeRegression Curve EstimationLinear(线性模型)Linear(线性模型)Quadratic(二次曲线模型)Quadratic(二次曲线模型)Compound(复合曲线模型)Compound(复合曲线模型)Growth(增长曲线模型)Growth(增长曲线模型)Logarithmic(对数模型)Logarithmic(对数模型)
展开阅读全文