系统工程-05概率、统计与系统的统计分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《系统工程-05概率、统计与系统的统计分析课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 系统工程 _05 概率 统计 系统 统计分析 课件
- 资源描述:
-
1、2022-8-171第 五 讲2022-8-1722022-8-173模型建立的方法一般有三种途径:1.白盒利用已知的一些基本定律,经过分析和推演导出系统模型。2.黑盒和灰盒如果允许直接进行实验性观测,则可假设模型并通过实验来修正。3.黑盒不允许直接实验观测,则采用数据收集和绕计分析方法来假设模型。返回目录返回目录返回目录2022-8-174城市系统工程的特点:系统内部的结构和特性不清楚;系统庞大,一般不允许直接实验观测。必须采用数据收集和统计分析的方法假设模型。2022-8-1751、确定型的函数关系。2、非确定型的相互关系(相关关系)。对于这种相关关系,单凭个别调查,一次观测试验无法发现其
2、规律,但从大量的调查、观测试验中有可能发现它们之间存在的某种规律,叫做随机现象的统计规律。2022-8-176进行m次试验(或样本为m个),出现甲事件n次,我们就说甲事件发生的频率为n/m,对于每次试验所发生的事件是随机的,偶然的,但当m增大时,n/m趋于一个稳定值,即概率为n/m。返回目录返回目录返回目录对某一事件发生的机会或可能性大小的计量概率2022-8-177频率具有稳定性的事件叫做随机事件;频率的稳定值叫做随机事件的概率。rnRNnrNR鱼塘中有R条鱼有记号,任意抓出n条鱼,其中有r条有记号,问鱼塘中大约有多少条鱼?样本数:n事件数:两个,即A有记号,B无记号抽样中有记号的鱼是r条,
3、A事件发生的概率为r/n。则2022-8-178从所研究的整体中随机抽取小部分来进行观察和研究,从而对整体进行推断的方法,叫随机抽样法。返回目录返回目录返回目录数据处理:采用一定的方法对随机抽样得到的一批数据进行处理,以寻求它的特征和规律。如何抽样;如何对抽样结果进行处理。2022-8-179将30个数据从小到大排列:2.5,3.0,3.5,3.8,4.0,4.2,4.4,4.5,4.7,4.9,4.9,4.9,5.0,5.0,5.1,5.15,5.15,5.3,5.4,5.5,5.5,5.7,5.9,6.0,6.1,6.3,6.7,7.0,7.8,9.4例:对某街区居民居住水平(m2/人)进
4、行抽样调查2022-8-17103.频率直方图与频率曲线fid当n,d 0时2022-8-17111.位置特征值 2.离散程度的测量3.变异系数2022-8-1712(1)平均数(均值)niixnx11(2)加权平均数(数学期望值,Expected value)nniniixfxfxfxfE22111如有一批数:2,2,3,4,4,4,5,6,7,7 xi:234567Vi:213112fi:0.20.10.30.10.10.24.472.061.051.043.031.022.061iiixfE2022-8-1713(3)中位数如有8个样本数的排列顺序为1,2,2,3,4,4,4,6,其中位
5、数为(3十4)2 3.5。(4)众数在样本中出现频率最高(频数最大)的数称为样本的众数。2022-8-17142.2.离散程度的测量离散程度的测量(1)极差 R=maxx1,x2,,xnminx1,x2,,xnniinxxnd11(3)样本方差(平均离差平方和)niixxn122)(1(4)标准差(均方差,方根差)和无偏估计niixxn12)(1niixxnS12)(11无偏估计(2)平均差(平均离差)所有偏差的绝对值的平均数。2022-8-1715例:有一组数1,2,3,4样本数n4平均数:5.2)4321(41411411iiniixxnx极差:Rmax1,2,3,4 min1,2,3,4
6、 413平均差:15.245.235.225.214111niinxxnd标准差(均方差,方根差)118.1452545.235.225.2141412222412iixx无偏估计值29.151411112niixxnS2022-8-17163.变异系数均匀离散两组数的平均值一样,用标准差或方差来描述两个样本的离散程度。变异系数(相对标准差)Cv是一个相对离散指标。%100 xCv2022-8-1717(1)设一次随机试验只有有限的几种可能结果。(2)每次随机试验结果的可能性是相等的。(一)古典概率与近代概率NKNKAAP)()()(基本事件总数发生的基本事件个数导致返回目录返回目录返回目录古
7、典概型对于古典概型2022-8-1718K是三个白球中取二个的组合:N是从五个球中取二个球(可能是白球也可能是黑球)的组合:3112123!23!2!323CK101231212345!25!2!525CN从盒中取出二个都是白球的概率:P(A)310 0.3Ex:在一个盒子里装有五个球,其中三个是白球,二个是黑球。每次任意取出二个球,试问取出二个球全是白球的概率是多少?2022-8-1719Ex:在待婚青年中女青年有结婚用房的占20,男青年有结婚用房的占35,问待婚青年中需要结婚用房的青年比例是多少?待婚青年中有结婚用房的比例是:P(A+B)P(A)+P(B)P(A)P(B)203520354
8、8待婚青年中缺结婚用房的青年为:100一4852 2022-8-1720近代概率主要研究的对象就是随机变量。xA1 正面朝上(A发生)0 正面朝下(A不发生)随机变量x究竟取什么值不能事先确定,它随每次试验或抽样调查的结果而定,用r.v表示。掷硬币,正面朝上为事件A,则2022-8-1721对于一个随机变量,我们不仅要知道它可能取什么数值,而更重要的是要知道它以多大的可能性取这些数值。随机变量x取a值的概率P(x)就是频率分布曲线下从a之间的面积积分。P(x)P(xa)2022-8-17221.离散型分布随机变量只可能取有限个或一串值。二项分布是指在n次独立试验中,每次试验只有两种结果,如成功
9、或失败,PrP(r/n)Cnrprqnrp:成功的概率q:不成功的概率。成功次数r的概率2022-8-172300002.06561!66!6!66561660006.06561!56!5!6656165008.06561!46!4!6656164005.06561!36!3!665616320.06561!26!2!665616240.06561!16!1!665616133.033.01!06!0!665616006066661515565242446433333634242262515116160060CPPCPPCPPCPPCPPCPPCPP如果交叉路口某方向红灯的概率为10/60,问
10、每周上班(六天)遇到红灯次数的概率分布2022-8-1724当二项分布的n,P0时,就是著名的泊松分布:pnmrmeqpCPrmrnrrnnr!limEx:每10分钟通过道路交叉口的车辆数就是服从泊松分布,如图。2022-8-17252.连续型分布 对于连续的随机变量,我们称随机变量x是连续分布的,它的分布常用分布密度来描述,其概率分布为 badxxpbxaP)(正态分布2022-8-1726定义随机变量x为x时,则称随机变量x服从正态分布,记为xN(m,2)。当m0,1时,随机变量方差。随机变量均值;其中:的分布密度为若随机变量222221)(mmxexPx2221)(xexP此时称随机变量
11、x服从标准正态分布,记为xN(0,1)2022-8-1727xN(0,1),求x1.10的概率。查表得:P(x1.10)0.8643 xN(0,1),求x0.05的概率。x值在左半区域内,利用其对称的特点,先求x0.05的概率,查表得0.052,再求x-0.05的概率 P(x0.05)1P(x0.05)10.51990.48012022-8-1728xN(0,1),求1.05x0.75的概率。P(1.05x0.75)P(x0.75)P(x1.05)0.77341P(x1.05)0.7734(10.8531)0.62652022-8-1729 xN(1,102),求P(5x10)这是非标准正态分
12、布,可以先将其变换成标准正态分布后,再通过查表求解。变换公式是:mxxF)(1605.06554.08159.04.09.0101510110510105xPxPxP2022-8-1730当随机变量偏离条件平均值yi的密度分别为,2,3时,分别求得其随机变量在这些区间内的概率:mxxF)(6826.01587.08413.08413.018413.0118413.011mmmmmmmmPxPxP2022-8-1731tt 分布函数:2121221ntnxnnnxPt分布记为t(n),n为t变量的自由度。当自由度n时,t分布趋于正态分布。2022-8-1732x服从F分布,记为F(n1,n2),
13、称n1为第一自由度或分子自由度;n2为第二自由度或分母自由度。0222221211222212121121xnxnnnxnnnnxPnnnnnF2022-8-17331.数学期望和条件数学期望xi100200Pi0.010.99作为它的平均值是不合理的。1502200100 x用应该同时考虑随机变量的概率,用数学期望值来表示随机变量的特征:E(x)1000.012000.99199 niiiPxxE1连续型随机变量的数学期望值:dxxxpxE指随机变量在某种条件下的数学期望值。记为E(y|xi)。条件数学期望:离散型随机变量的数学期望值:2022-8-1734离散型随机变量的方差 iiPxEx
14、xD2连续型随机变量的方差 dxxpxExxD2当随机变量为正态分布时,它的方差等于样本的方差,即D(x)2vE(xk)称为x的K阶原点矩,记为Vk。其中K=1,2,3,vEx-E(x)k称为x的K阶中心矩,记为mk。当K=1时,V1=E(x1)=E(x)是期望值E(x);当K=2时,m2=x-E(x)2是方差D(x)。2022-8-1735协方差表示两个变量的方差,所以又称为“混合中心矩”或“相关矩”。xyniSnyyxxnyx11,cov1相关定义;设两个随机变量x,y,若对应于其中任一个随机变量的每一(可能的)数值都由另一个随机变量的一个确定的(条件)分布,则说x与y有相关关系。2022
15、-8-1736相关系数反映两个向量间的夹角q大小,q越小越相关。221122122111,cov,yxxyniniiiniiiyxSSSyyNxxNyyxxNyxyxr2022-8-17372022-8-1738例如在分析居住小区居住密度时,通常可以用户/ha,居住面积密度,居住建筑面积密度,每人用地面积,人口净密度等指标加以衡量。2022-8-1739(一)大数定律定理1:当样本无限地增大,随机事件发生的频率将与它的概率趋于一致。定理2;无穷多个独立的随机变量(样本值),如果具有相同的数学期望值时,(样本来自同一总体)则这些变量的平均数将趋近于他们的数学期望值。这就是说,当样本增多时,以样本
16、平均值来估计总体的数学期望值具有很高的准确度。返回目录返回目录返回目录2022-8-1740中心极限定理研究随机变量分布函数的极限成为正态分布的条件问题。定理:当样本足够大时(n),可以不必考虑随机变量是什么样的分布。样本平均数的分布总可以近似地看成是以总体的数学期望为它的平均值,以总体的标准差再除以n作为它的标准差的正态分布。即 nxDxENx,一般样本数应大于30才能应用中心极限定律。2022-8-1741返回目录返回目录返回目录(一)u检验条件:总体xN(m,02),此处总体方差0已知,m未知,或0未知,但样本很大时(如n30),可以样本方差代替总体方差。假设mm0,则可根据样本数据构造
17、统计u:然后根据精度要求,给定一个u值的显著水平a值。a值又叫小概率。(1a 称置信系数或置信度)也就是说,出现m值的概率不大于a,如果不太可能发生的情况竞然发生了,则说明原假没不可靠,拒绝接受这假设,即a越大越容易被拒绝。这就是说,根据样本值计算统计最u,然后通过查正态分布表看它是否落人拒绝域内,落入拒绝域则原假设不可靠。因为这统计量叫u,故称为u检验。nxu00m2022-8-1742例:根据以往资料或产品质量指标的要求,红砖的抗压强度xN(125,52),即砖的平均抗压强度为125#,标准差为5。所以我们先假定某天生产的砖的平均抗压强度为125#,然后再来反正这假定是否可靠。现在从某天生
18、产的红砖中抽取五块砖测定其抗压强度如下:xi:123121123120128平均:123#如果假定这批砖合格,即假设这批砖总体m0125,那么这种假定是否可靠呢?先选定显著水平 a0.05255125123125,5,123,500样uxnm2022-8-1743随机变量的概率为5(a0.05),再查表求得其随机变量的分布域。因为随机变量的概率分布是左右对称的,每边的小概率应为a20.025(称双边检验,图4-22)-u0.025+u0.025P(|x|u0.025)=0.025P(-xu0.025)=0.975查表得:u0025=1.96显然,x196的概率为95%。x1.96的概率为100
19、%95%=5%,即P(|u|196)=0.05。由于随机变量的概率分布是左右对称的,因此随机变量x1.96的概率也是5%,即P(u1.96)=0.05。现在,u样21.96,落在拒绝域内,说明这批产品在a0.05的显著水平下不合格。若选a0.01,则可查得u0.0052.58,|u|2.58,可判合格。2022-8-1744(二)t检验法条件:总体为正态分布,样本容量不可能足够地大时,在总体方差未知的情况下,假设mm0,构造统计量t,它服从于t分布。110ntxntm式中:样本均方差;m0:为假设总体均值。利用t分布表进行检验m0的假设是否可靠。上述u,t检验都要满足两个前提:(1)总体必须正
20、态分布。根据大数定律和中心极限定理可知,现实生活中很多观象都近似服从正态分布,这条件不难满足。(2)对样本平均数作检验时,它们的总体方差应相等,照理还应作方差齐性检验,如c检验。但这点对于城市规划领城中的统计假设要求精度并不高,一般也不先作方差齐性的检 验。2022-8-1745条件:两个总体都是正态分布,检验它们的方差是否相等。已知两个总体分别服从正态分布N(m1,12,N(m2,22)。假设1222,为检验其可靠性,则必须构造统计量F,作F检验。1,12122nnFSSF小大S为无偏估计,两个总体中将较大的S作分子。所以F值1,它服从F分小。这不难理解,若两个总体方差相等,它们方差的无偏估
21、计应当相差不大,即Fl,若F值过大,则认为假设不成立。2022-8-1746条件1.m个总体都是正态分布的;2.总体的样本是相互独立的随机样本;3.各总体的方差都相等(方差齐性)。几个术语:比如我们选择三种不同类型的居住区进行调查其居住面积水平,如花园洋房、旧式里弄、新村住宅。各类型又分别调查若干个地点。不同类型住宅区可能水平明显不同,相同类型的住宅区,水平则很相近。这不同类型称为。有三个类型,称“因素水平”为三。它 们各自的居住水平称为“”。返回目录返回目录返回目录2022-8-1747指标的不同是由于两个方面的原因引起的。首先是由于因素本质的不同。这种因条件不同引起的指标的不同,其误差称之
22、为,又叫(偏差),以Q1代表它的偏差平方和。其次,即使是同一类型作许多处调查,或同一类型在同一地点作几次抽样调查,每次结果指标也有可能不同。这是在调查中并非由于因素不同造成的,而是因人为无法控制的某些原因引起的误差,其误差称之为或,又称,以Q2代表它的误差平方和。2022-8-1748上式称为方差分析基本方程。由于试验误差的存在,使人们难以直觉地判断条件因素对指标的影响程度是否显著,方差分析的基本方法就是要把影响指标的条件误差和随机误差分开来,以判断条件对结果的影响大小。.;:112值为全部样本值的总平均个样本值组第为第组的样本数为第为因素水平其中总偏差平方和xjixinmxxQijiminj
展开阅读全文