第10讲数据的统计分析与描述精选课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第10讲数据的统计分析与描述精选课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 10 数据 统计分析 描述 精选 课件
- 资源描述:
-
1、数学建模与数学实验数学建模与数学实验数据的统计描述和分析数据的统计描述和分析2022-10-19实验目的实验目的实验内容实验内容2、掌握用数学软件包求解统计问题。、掌握用数学软件包求解统计问题。1、直观了解统计基本内容。、直观了解统计基本内容。1 1、统计的基本理论。、统计的基本理论。3 3、实验作业。、实验作业。2、用数学软件包求解统计问题。、用数学软件包求解统计问题。2022-10-19统计的基本概念统计的基本概念参数估计参数估计假设检验假设检验数据的统计描述和分析数据的统计描述和分析2022-10-191、表示位置的统计量平均值和中位数 平均值平均值(或均值,数学期望):niiXnX11
2、 中位数中位数:将数据由小到大排序后位于中间位置的那个数值.2、表示变异程度的统计量标准差、方差和极差 标准差标准差:2112)(11niiXXns 它是各个数据与均值偏离程度的度量.方差方差:标准差的平方.极差极差:样本中最大值与最小值之差.一、统计量一、统计量2022-10-19 3.表示分布形状的统计量偏度和峰度偏度偏度:niiXXsg1331)(1 峰度峰度:niiXXsg1442)(1 偏度反映分布的对称性,g1 0 称为右偏态,此时数据位于均值右边的比位于左边的多;g1 0 称为左偏态,情况相反;而 g1接近 0则可认为分布是对称的.峰度是分布形状的另一种度量,正态分布的峰度为 3
3、,若 g2比 3大很多,表示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一.4.k 阶原点矩阶原点矩:nikikXnV11 k 阶中心矩阶中心矩:nikikXXnU1)(12022-10-19二、分布函数的近似求法二、分布函数的近似求法1、整理资料整理资料:把样本值 x1,x2,xn进行分组,先将它们依大小次序排列,得*2*1nxxx.在包含,*1nxx的区间a,b内插入一些等分点:,21bxxxan注意要使每一个区间,(1iixx(i=1,2,n-1)内都有样本观测值 xi(i=1,2,n-1)落入其中.2、求出各组的频数和频率、求出各组的频数和
4、频率:统计出样本观测值在每个区间,(1iixx中出现的次数in,它就是这区间或这组的频数.计算频率nnfii.3、作作频频率率直直方方图图:在直角坐标系的横轴上,标出21,nxxx各点,分别以,(1iixx为底边,作高为iixf的矩形,1,2,1,1nixxxiii,即得频率直方图.2022-10-19三、几个在统计中常用的概率分布三、几个在统计中常用的概率分布-4-2024600.050.10.150.20.250.30.350.41正态分布正态分布),(2smN密度函数:222)(21)(smspxexp分布函数:dyexFyx222)(21)(smsp其中m为均值,2s为方差,x.标准正
5、态分布:N(0,1)密度函数2221)(xexpjdyexyx2221)(Fp,分布函数2022-10-190510152000.020.040.060.080.10.120.140.162、2分分布布2(n)若随机变量 X1,X2,Xn相互独立,都服从标准正态分布 N(0,1),则随机变量 Y=22221nXXX服从自由度为 n 的2分布,记为 Y2(n).Y 的均值为 n,方差为 2n.2022-10-193、t分分布布t(n)若 XN(0,1),Y2(n),且相互独立,则随机变量 nYXT 服从自由度为n 的t 分布,记为Tt(n).t 分布t(20)的密度函数曲线和N(0,1)的曲线形
6、状相似.理论上n时,Tt(n)N(0,1).-6-4-2024600.050.10.150.20.250.30.350.42022-10-194.F分布分布 F(n1,n2)若 X2(n1),Y2(n2),且相互独立,则随机变量 21nYnXF 服从自由度为(n1,n2)的 F 分布,记作 F F(n1,n2).由 F 分布的定义可以得到 F 分布的一个重要性质:若 F F(n1,n2),则),(112nnFF00.511.522.5300.10.20.30.40.50.60.70.80.91返回返回F分布F(10,50)的密度函数曲线2022-10-19无论总体 X 的分布函数 F(x;k,
7、21)的类型已知或未知,我们总是需要去估计某些未知参数或数字特征,这就是参数估计问题.即参数估计就是从样本(X1,X2,Xn)出发,构造一些统计量(iX1,X2,Xn)(i=1,2,k)去估计总体 X 中的某些参数(或数字特征)i(i=1,2,k).这样的统计量称为估计量估计量.1.点估计点估计:构造(X1,X2,Xn)的函数(iX1,X2,Xn)作为参数i的点估计量,称统计量i为总体 X 参数i的点估计量.2.区间估计区间估计:构造两个函数(1 i X1,X2,Xn)和(2i X1,X2,Xn)做成区间,把这(21,ii)作为参数i的区间估计.2022-10-19一、点估计的求法一、点估计的
8、求法(一)矩估计法假设总体分布中共含有 k 个参数,它们往往是一些原点矩或一些原点矩的函数,例如,数学期望是一阶原点矩,方差是二阶原点矩与一阶原点矩平方之差等.因此,要想估计总体的某些参数i(i=1,2,k),由于 k 个参数一定可以表为不超过 k 阶原点矩的函数,很自然就会想到用样本的 r阶原点矩去估计总体相应的 r 阶原点矩,用样本的一些原点矩的函数去估计总体的相应的一些原点矩的函数,再将 k 个参数反解出来,从而求出各个参数的估计值.这就是矩估计法,它是最简单的一种参数估计法.2022-10-19(二)极大似然估计法极极大大似似然然法法的想法是:若抽样的结果得到样本观测值 x1,x2,x
9、n,则我们应当这样选取参数i的 值,使 这 组 样 本 观 测 值 出 现 的 可 能 性 最 大.即 构 造 似 然 函 数:)()()(),(),(2211221121nnnnkxXPxXPxXPxXxXxXPL),(),(),(),(1111211kniiknkkxpxpxpxp使),(1kL达到最大,从而得到参数i的估计值i.此估计值叫极极大大似似然然估估计计值值.函数),(1kL称为似似然然函函数数.求极大似然估计值的问题,就是求似然函数),(1kL的最大值的问题,则 0iL ki,2,1即 0iLnL ki,2,12022-10-19设总体 X 的分布中含有未知参数,若对于给定的概
10、率1(10),存在两个统计量(1 X1,X2,Xn)和(2 X1,X2,Xn),使得 1)(21P则称随机区间(),21为参数的置信水平为1的置置信信区区间间,1称为置置信信下下限限,2称为置置信信上上限限.二、区间估计的求法二、区间估计的求法2022-10-19设样本(X1,X2,Xn)来自正态母体 X,已知方差2sDX,EX 在置信水平 1-下的置信区间为,2121nuXnuXss.1、已知、已知DX,求,求EX的置信区间的置信区间2 未知方差未知方差DX,求,求EX的置信区间的置信区间EX 在置信水平 1-下的置信区间为,2121nstXnstX.(一一)数学期望的置信区间数学期望的置信
11、区间(二)方差的区间估计(二)方差的区间估计DX 在置信水平 1-下的置信区间为)1(,)1(2222212snsn.返回返回2022-10-191.参数检验参数检验:如果观测的分布函数类型已知,这时构造出的 统计量依赖于总体的分布函数,这种检验称为参数检验.参数检验的目的往往是对总体的参数及其有关性质作出明 确的判断.对总体X的分布律或分布参数作某种假设,根据抽取的样本观察值,运用数理统计的分析方法,检验这种假设是否正确,从而决定接受假设或拒绝假设.2.非参数检验非参数检验:如果所检验的假设并非是对某个参数作出明 确的判断,因而必须要求构造出的检验统计量的分布函数 不依赖于观测值的分布函数类
12、型,这种检验叫非参数检验.如要求判断总体分布类型的检验就是非参数检验.2022-10-19假设检验的一般步骤是假设检验的一般步骤是:1 根据实际问题提出原假设 H0与备择假设 H1,即说明需要检验 的假设的具体内容;2 选择适当的统计量,并在原假设 H0成立的条件下确定该统计量 的分布;3 按问题的具体要求,选取适当的显著性水平,并根据统计量 的分布查表,确定对应于的临界值.一般取 0.05,0.01 或 0.104 根据样本观测值计算统计量的观测值,并与临界值进行比较,从 而在检验水平条件下对拒绝或接受原假设 H0作出判断.2022-10-19(一)单个正态总体均值检验(一)单个正态总体均值
13、检验一、参数检验一、参数检验设取出一容量为 n 的样本,得到均值X和标准差 s,现要对总体均值m是否等于某给定值0m进行检验.记00:mmH;01:mmH称 H0为原原假假设设,H1为备备择择假假设设,两者择其一:接受 H0;拒绝 H0,即接受 H1.2022-10-19 用 u检检验验,检验的拒绝域为21uzW 即 2121uzuzW或 用样本方差2s代替总体方差2s,这种检验叫 t检检验验.总体方差2s已知统计量 z=nXsm0总体方差2s未知统计量tnsX0mH0H1在显著水平下拒绝 H0,若0mm0mm21 uz)1(21ntt0mm0mm1uz)1(1ntt0mm0mm1uz)1(1
14、ntt1、总总体体方方差差2s已已知知2总总体体方方差差2s未未知知2022-10-19(二)单个正态总体方差检验(二)单个正态总体方差检验设 X1,X2,Xn是来自正态总体),(2smN的样本,欲检验假设:2020:ssH 2021:ssH(或 202ss 或 202ss)这叫2检验检验.均值m已知统计量212202)(1msniiX均值m未知统计量212202)(1XXniisH0H1在显著水平下拒绝 H0,若202ss202ss)(222n或)(2212n)1(222n或)1(2212n202ss202ss)(212n)1(212n202ss202ss)(22n)1(22n2022-10
15、-19(三)两个正态总体均值检验(三)两个正态总体均值检验构造统计量 222121nnYXzss.1、21s与与22s已知时已知时2、21s与与22s未未知知但但相相等等时时构造统计量212121222211)2()1()1(nnnnnnsnsnYXt,方差2221,ss已知统计量 z方差2221,ss未知但相等统计量tH0H1在显著水平下拒绝 H0,若21mm21mm21 uz)2(2121nntt21mm21mm1uz)2(211nntt21mm21mm1uz)2(211nntt2022-10-19(四)两个正态总体方差检验(四)两个正态总体方差检验设样本 X1,X2,Xn1与 Y1,Y2
16、,Yn2分别来自正态总体),(211smN与),(222smN,检验假设:22210:ssH 22211:ssH(或2221ss或2221ss)均值21,mm已知统计量0F均值21,mm未知统计量FH0H1在显著水平下拒绝 H0,若2221ss2221ss),(21210nnFF或),(112210nnFF)1,1(2121nnFF或)1,1(11221nnFF2221ss2221ss),(2110nnFF)1,1(211nnFF2221ss2221ss),(11210nnFF)1,1(1121nnFF21122212110)(1)(1niiniiYnXnFmm,2221ssF(设2221ss
17、)2022-10-19(一)(一)皮尔逊皮尔逊2拟合检验法拟合检验法二、非参数检验二、非参数检验(二)概率纸检验法(二)概率纸检验法 概率纸是一种判断总体分布的简便工具.使用它们,可以很快地判断总体分布的类型.概率纸的种类很多.如果一个总体的分布 F(X)是正态的,则(x,F(x)点在正态概率纸上应呈一条直线.设 X1,X2,Xn是从正态总体中抽得的样本观测值,将它们按大小排列后,记作 X(1)X(2)X(n).则当 n 较大时,样本的经验分布函数 Fn(x)和理论分布 F(x)很接近.因此,如果用(x,F(x)画图,则必应近似为一条直线.返回返回2022-10-19统计工具箱中的基本统计命令
18、统计工具箱中的基本统计命令1.数据的录入、保存和调用数据的录入、保存和调用2.基本统计量基本统计量3.常见概率分布的函数常见概率分布的函数4.4.频频 数数 直直 方方 图图 的的 描描 绘绘5.参数估计参数估计6.假设检验假设检验7.综合实例综合实例返回返回2022-10-19一、数据的录入、保存和调用一、数据的录入、保存和调用 例例1 上海市区社会商品零售总额和全民所有制职工工资总额的数据如下年份78798081828284858687职工 工 资 总 额(亿元)23.827.631.632.433.734.943.252.863.873.4商品 零 售 总 额(亿元)41.451.861
展开阅读全文