新编-(大学课件)统计方法建模.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《新编-(大学课件)统计方法建模.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大学课件 新编 大学 课件 统计 方法 建模
- 资源描述:
-
1、xxxp12,yyym12,2121mpyyyxxxyjmnj,1212 系统x1x2xpy1y2ym为简化问题,不妨设该系统为单目标系统,且由函数关为简化问题,不妨设该系统为单目标系统,且由函数关系系 ,可以设:,可以设:(1.2)可得如下线性模型可得如下线性模型 (1.3)为测量误差,相互独立,为测量误差,相互独立,。令令yf xxxp(,)12yxxpp011nnppnnnppppxxxyxxxyxxxy22110222222211021112211101 12,niN(,)0YyyyXxxxxxxxxxnppnnnppn121112121222120112111YXniippiixxy
2、Q12110QQminpiQi,2,1,0001,pAX XpT设()1X YX XATTAXYT1yyn1,ynyyyn112()SyySyySyynnn总剩回()()()212121SxpSxnpFSpSnpF p np回剩回剩2222111()()/(,)Hp0120:H1:FFp npH(,),10时 拒绝当时,接受FFp npH(,)10H0 xxxp12,Hjj00:Hjj10:jp 1 2,jjjjjjjjjcNFcSnpFnp剩(,),()/(,)0 11112tSnpt npcAX XjjjjjT/()()剩是1111FFnpttnpjj(,)()1112或ji 0yxxpp
3、011yxxpop00101yyNb(,)00bnCxxxxijoiiojjjpip21111()()y ybNSx n py ySn pt n p (,),(),/()022001111剩剩y01)1(12020pnSpntyypnSty剩剩 得得 的预测区间:的预测区间:i0 x xxp12,1 mp;,2,1,nxyma11110mmnxxxxi12,nSxxSxxmmmmnn总回(),()2211Sxxxmmnm剩(),21 xbb xb xbxmmm0112211b bbm011,0121,mzxxjmijjjj12,jjjnxx()21zzzznnmm,01221111 2RNXX
4、AT00YXBT)1()1(mmijrRjinjjiiijxxxxr1)(1.14)可得数学模型为:可得数学模型为:(1.15)经推导可得:经推导可得:,BrrrRrrrrrrrrrmmmmmmmmmm01211 11 2112 12 2211 11 211,Zd zd zdznmm1 12211yxxd xd xdxnnmmmmmm()111222111111222111mmmmmmxdxdxdRbdjmjmjj1 21,bxb xmjjjm011dj112总总SSm回回SSm21剩剩SSm21VQjmj12VjxjZjZjjQVrrjjmjj()/12Rrrrrrrrrrrrrrrrrmm
5、mmmmmmmmmmm mm m(),0111211121222121 11 2111121VVVm112111()()(),)1()1(max1jjkVVZk1FVSfVrVnFnkkmmk111111111212()()()()()/()(,)剩剩FFn112(,)jm1 21,Vrrjjmjj()/12)1(11)1(1max,1jmjkVVkZk1FVrVnkmmk111112()()()FFn112(,)zjzjVjkVjj()()max212RRrtsj()()()012drrrjkjjmjjmjj()()()()/()22111)1()2()2(/1jjjjjjjrrcVdcrr
6、jjjjjmjj()()()()/222121zjkj()1zk2jk1zjVj()2Vj()2Vk22()zk2FVrVnFnkmmk121222313()()()()(,)zk2zk2zk1()()zdzdzmkkkk112222Vdcrrkkk kk mk k111 111 1222222()()()()()/SrVrrrrmmkmmk mk kmm剩()()()()()()()/212112122222fnn剩()2213zk1FVSfVrnFnkkmm22222211313()()()()()/()(,)剩剩zk1FVrnFnkmm2222313()()(,)zd zd zd znk
7、kkkkkll11221kz一、数学模型一、数学模型二、主成份分析二、主成份分析三、主成份的贡献率三、主成份的贡献率pp(,)12ppyyykpk12,()pXx xxpT(,)12pXx xxpT(,)12pE()D XV()12pijp pD XCOV xxV()(,)xxxp12,y yyk12,ya xa xa xa XppT11122aa aaXx xxTpTp(,),(,)1212D yD a XaDX aa VaTTT()()()1y1Dy1Lagrange1aaDy1max11DyaaTa Vaa aTT()1aVaaa aT22011aaaVaTTaaaVaaTTVaayDT
8、)(10)(aIV0IV12,pVpmax1,max21paVa11d1111aaTp1a11Tya XV120p12mmaaa,21XayT11Tay22XayTmmmmaaa,21y yym12,x xxp12,V,xxxnp121 2VnS11Sxxxxijppijiijjn()()1iixiijijx x是,Vnxxxxxxppppp11111,1 2,n,xxxnp121 2xij Rrijp pxijyyym12,x xxp12,COV XXVijpp()()1112,ppx xxp12,1122pptrVV()方阵 之迹12ptrVD yimiii()(),01 2 ktrVii
9、iiim1ikikkkm12kdiyyykdii1211,()一、数学模型一、数学模型二、关于计算中应注意的问题二、关于计算中应注意的问题三、关于误判率及多个总体的判别三、关于误判率及多个总体的判别 根据所研究的个体的观察指标来推断个体所属于何种根据所研究的个体的观察指标来推断个体所属于何种类型的一种统计分析方法,称为判别分析。类型的一种统计分析方法,称为判别分析。例如某精神病院有精神病患者例如某精神病院有精神病患者256名,诊断结果将名,诊断结果将它们分成六类它们分成六类 (相当于相当于6个总体个总体)设设 服服从三维联合正态分布从三维联合正态分布 i=1,2,6,其中,其中,为协方差矩阵,
10、一般这六种类型可分为为协方差矩阵,一般这六种类型可分为焦虑状、癔病、精神病、强迫观念型、变态人格、正焦虑状、癔病、精神病、强迫观念型、变态人格、正常,若有如下子样:常,若有如下子样:子样子样 子样子样 子样子样G GG126,GiNVi3(,)iiii(,)123),(111VN111211,n),(222VN222221,n),(666VN666261,nxij注意到每个子样注意到每个子样 都是三维向量。现有一个新的都是三维向量。现有一个新的精神病患者前来就医,测得三个指标:精神病患者前来就医,测得三个指标:1232.01.01.01xxx试判断该患者病情属于哪一类。试判断该患者病情属于哪一
11、类。(一一)两两点的距离点的距离n设设 维空间中有两点维空间中有两点 ,则其欧氏距离为则其欧氏距离为:Xx xxTn(,)12Yy yyTn(,)121221()niiidxy欧(3.1)由于数据的量纲不同,不采用欧氏距离由于数据的量纲不同,不采用欧氏距离,用马用马氏距离有:氏距离有:定义定义1 1:设:设X,YX,Y是从总体是从总体G G中抽取的样品中抽取的样品,G,G服从服从P P维维正态分布,正态分布,,定定义义X,Y两两点点间间的距离的距离为马为马氏距氏距离:离:NVp(,)1(,)()()Td X YXYVXY(3.2)定义定义2:X与总体与总体G的距离为的距离为D(X,G)为为 1
12、12(,)()()()(,)TTpD X GXVXE X(3.3)(二二)距离判别法距离判别法 设有两个协方差相同的正态总体设有两个协方差相同的正态总体 ,且,且G G12,1122(,)(,)PpGNVGNV对于一个新的样品,要判定它来自哪一个总体,对于一个新的样品,要判定它来自哪一个总体,有一个很直观的方法:有一个很直观的方法:计算计算 12(,),(,)D X GD X G221212(,)(,),DX GDX GXGXG则否则若若(三三)线线性判性判别别函函数数 由由 2212122(,)(,)()()TD X GD X GXVX11121112()()2()()2TTXVXXV令令
13、121()2记记 112()()()TW XXV则有:当则有:当 时,时,否则否则()0W X 1XG2XG 12,V当当 为已知时,令为已知时,令 112()aV,可得:可得:()()()TTW XXaaX(3.4)W X()称称 为线性判别函数,为线性判别函数,a a为判别系数为判别系数,因为因为 112()aV,即,即 12Va,解解线线性方程性方程组组可得解可得解12(,)Tpaa aa此时的判别规则为:此时的判别规则为:12()0()0TTaXXGaXXGX是新的一是新的一个个点点,将将其代入即可判其代入即可判别别。(3.5)实际上实际上,均未知均未知,要用样本值的估计公式来计算出要
14、用样本值的估计公式来计算出与。其方法如下。其方法如下:设子样设子样x xxn121,来自总体来自总体G1,子样子样yyyn122,来自来自G2,可由可由XnxYnykkknkn11121121,SXXXXxxxxkkTkikjjknknp pi11111()()()()ppnknkjkjikiTkkyyyyYYYYS22112)()(在本在本节节的的开头开头的例子中的例子中P=3)得到得到 VnnSS121212()(21YX(3.6)(3.7)判别函数为判别函数为)()()(1YXVXXW(3.8)判别系数为判别系数为)(1YXva这里提及一个回报的误判率问题。在构造判别函数这里提及一个回报
15、的误判率问题。在构造判别函数W(X)时时,是依据样本是依据样本 XXXn121,现现在已知在已知 XXXn121,均属于均属于 G1,从从道理上道理上来说来说,Xi经过判别公式经过判别公式(3.8),可得出可得出 XG ini1112,但也可能出但也可能出来来某几某几个个不不属属于于 G1,这这0n便是误判。若有便是误判。若有 存在存在,使得使得 0)(0nXW,说说明明 20GXn这这就就产产生了一生了一个误个误判。所判。所谓误谓误判率判率,即是出即是出现误现误判的判的百分百分数数,我我们应该们应该有所控制。有所控制。当两个总体的协方差不相等时当两个总体的协方差不相等时,可用如下方法可用如下
16、方法:DX GXVXT211111(,)()()DX GXVXT222212(,)()()(3.9)(3.10)当当 DX GDX GXGXG212212(,)(,),时否则当当 1212,未知时未知时,用下列估计代替用下列估计代替:222111211111SnVSnVYX在在m个总体个总体G GGm12,时,均值为时,均值为12,m协方差阵为协方差阵为V VVm12,(p维维)设设 iiV,都已知时都已知时,X为样品为样品 Xxxxp001020(,)计算计算 DXGimi201 2(,),选择一个选择一个最小的值例如最小的值例如),(min),(02102imikGXDGXD则则 XGk0
17、设设iiV,未知未知,但独立,可以分别以估计值来计算。但独立,可以分别以估计值来计算。iiV,当上述当上述 未知未知,但但VVVm12亦可以用上述类似方法。亦可以用上述类似方法。上述解决方法中,可以扩展到非正态分布。上述解决方法中,可以扩展到非正态分布。时,时,物以类聚,人以群分,社会发展和科技的进物以类聚,人以群分,社会发展和科技的进步都要求对于某些物体进行分类。由于早期的定步都要求对于某些物体进行分类。由于早期的定性分类已不能满足需要,于是数值分类学便应运性分类已不能满足需要,于是数值分类学便应运而生。而生。一、数学模型一、数学模型二、应用类例二、应用类例某种物品有某种物品有n个:个:XX
18、Xn12,指标,如何将其分成若干类,基本的思路是把距离指标,如何将其分成若干类,基本的思路是把距离较近的点归成一类。这里的距离可分为如下三类:较近的点归成一类。这里的距离可分为如下三类:它有它有m个数值量化个数值量化1.距离距离 Xxxxiiiim(,)12in 1 2,XXij,的距离的距离,dD XXijij(,)本文中的距离常用欧氏或马氏距离,公式在前几节本文中的距离常用欧氏或马氏距离,公式在前几节中已述,还有一种用绝对距离:中已述,还有一种用绝对距离:jkikmkijxxd1max)(应该提及马氏距离应该提及马氏距离dMij()可以克服数据相关性的困难可以克服数据相关性的困难。2.数数
19、据正据正规规化化处处理理 当当Xi的分量中的分量中m大大,要经过正规化标准化处理,要经过正规化标准化处理,令令 个指标量纲不一致时,相差很个指标量纲不一致时,相差很(min)(max)(min)iiiijijxxxxx(4.1)其中其中 xxxxiiiim(min)min(,)12xxxxiiiim(max)max(,)12(4.2)(4.3)将经过将经过(1)(1)式处理的数据式处理的数据ijx重新视作重新视作xij(为记号上的为记号上的方便方便)3.相似系相似系数数法法 XXij,的相关系数的相关系数rxxxxxxxxijikijkjkmikijkjkmkm()()()()1221112(
20、4.4)可以将相关愈密切的归成一类。可以将相关愈密切的归成一类。先将先将n个样本各自为一类,计算它们之间的距个样本各自为一类,计算它们之间的距离,选择距离小的二个样本归为一个新类,再计算离,选择距离小的二个样本归为一个新类,再计算这个新类与其它样本的距离,选择距离小的二个样这个新类与其它样本的距离,选择距离小的二个样本本(或二个新类或二个新类)归为一个新类,每次合并缩小一个归为一个新类,每次合并缩小一个以上的类,直到所有样本都划为一个类为止。以上的类,直到所有样本都划为一个类为止。这里规定两点间距离为:这里规定两点间距离为:dD XXijij(,)两类间的距离,即两类间的距离,即 GGpq与的
21、距离为:的距离为:ijGXGXpqdDqjpi,min步骤如下:步骤如下:1.数据正规化处理数据正规化处理 要视各指标的量纲是否一致,相差是否太大,要视各指标的量纲是否一致,相差是否太大,并选择一种距离计算法,为了方便计,一般都选并选择一种距离计算法,为了方便计,一般都选择欧氏距离法。择欧氏距离法。2.计算各样本间的两两距离计算各样本间的两两距离,并记在分类距离对并记在分类距离对称表中称表中,并记为并记为D(0),第第0步分类步分类,此时此时 Ddpqpq(每一每一个样个样本点本点为为一一个类个类)3.选择选择表表D(0)中的最短距离中的最短距离,设为设为 Dpq,则将则将 GGpq,合并成一
22、个新类合并成一个新类,记为记为 GrGGGrpq,(4.5)4.4.计算新类计算新类Gr与其它类之间的距离与其它类之间的距离,定义定义 ijGXGXrkdDkjri,minijGXGXijGXGXddkjqikjpi,min,minmin min,DDpkqk(4.6)表示新类表示新类Gr与类与类Gk之间的距离。之间的距离。5.作作D(1)表表,将将D(0)中的第中的第p,q行和行和p,q列列删删去去,加加上第上第r行行,第第r列。第列。第r行行,第第r列列与与其其它类它类的距离按的距离按(4.6)式判式判断断后后记记上上,这样这样得到一得到一个个新的分新的分类类距离距离对称对称表表,并并 记
23、为记为D(1),D(1)表示表示经过经过一次聚一次聚类类后的距离表后的距离表,要要注意的是注意的是Dr类类是由是由哪两类哪两类聚聚类类得到得到应应在在D(1)表下表下给给以以说说明。明。6.对对D(1)按按3,4,5重复类似重复类似D(0)的聚类工作的聚类工作,得得D(2)。7.一直重复一直重复,直到最后只剩下两类为止直到最后只剩下两类为止,并作聚并作聚类图。类图。现有现有8个样品个样品,每个样品有每个样品有2个指标个指标(m=2,2维变维变量量),它们的量纲相同它们的量纲相同,(否则要经过正规化处理否则要经过正规化处理)x1x2编号编号 1 12 23 34 45 56 67 78 82 2
24、2 24 44 4-4-4-2-2-3-3-1-15 53 34 43 33 32 22 2-3-3试用系统聚类方法对这试用系统聚类方法对这8个样品进行聚类。个样品进行聚类。解解:采用欧氏距离采用欧氏距离 (1)最短距离法最短距离法,首先用表格形式列出首先用表格形式列出D(0)D(0)D(0)G1G1G2G2G3G3G4G4G5G5G6G6G7G7G8G8G1G10 0G2G22.02.00 0G3G32.22.22.22.20 0G4G42.32.32.02.01.01.00 0G5G56.36.36.06.08.18.18.08.00 0G6G65.05.04.14.16.36.36.16
25、.12.22.20 0G7G75.85.85.15.17.27.27.17.11.41.41.01.00 0G8G88.58.56.76.78.68.67.87.86.76.75.15.15.45.40 0表示第表示第i个样品个样品,i=1,2,8 Gi在在D(0)D(0)中中,最小值是最小值是1.0,1.0,相应的距离是相应的距离是D(3.4),D(3.4),与与D(6,7)D(6,7)。则。则G G34,合并为新类合并为新类G9,把把GG67,合并成合并成G10。(2)把把D(0)中去掉中去掉 G G G GG G G G34673467,行及列并计算得下表并计算得下表,后两行重算后两行重
展开阅读全文