第六章判别分析方案.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第六章判别分析方案.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 第六 判别分析 方案
- 资源描述:
-
1、第六章第六章 判别分析判别分析discriminant analysis 判别分析的基本概念判别分析的基本概念 两总体判别分析两总体判别分析 多总体判别分析多总体判别分析 SPSS的判别分析过程的判别分析过程 一、判别分析的基本概念一、判别分析的基本概念 判别分析问题的描述:判别分析问题的描述:已知若干组分类数据已知若干组分类数据 现有一新样本,要求判定新样本数据属于已知分类现有一新样本,要求判定新样本数据属于已知分类中的哪一类中的哪一类 判别分析的关键:判别分析的关键:判别函数:由描述各类的数值指标构成的分类规则,判别函数:由描述各类的数值指标构成的分类规则,明确已知各类应如何区别明确已知各
2、类应如何区别 例:肝炎病人的诊断例:肝炎病人的诊断 两总体判别:肝炎病人和正常人两总体判别:肝炎病人和正常人 判别依据:一些化验指标,形成判别公式判别依据:一些化验指标,形成判别公式-判别函数判别函数Simple,Two-Group DAMean of group 1 from data you haveMean of group 2 from data you haveUnknown observationx如何判别:如何判别:x与哪类距离近,与哪类距离近,就归属于哪类:就归属于哪类:若若dx1dx2,则则x属于第属于第2类类判别函数:判别函数:f=dx1-dx20,x2,0,x1判别规则判
3、别规则中国属于发展中国家还是发达国家?Pattern Recognition Problem判别分析与方差分析、聚类分析判别分析与方差分析、聚类分析 先采用聚类分析获得各个个体的类别(classification);然后采用判别分析建立判别函数,对新个体进行类型识别(identification)k判别分析的方法与数学描述判别分析的方法与数学描述 数据描述数据描述 对于对于m类总体类总体G1,G2,Gm,其分布函,其分布函数分别为数分别为f1(y),f2(y),fm(y),对于一个给,对于一个给定样品定样品y,我们要判断出这个样本来自哪个总,我们要判断出这个样本来自哪个总体。判别分析的主要问题
4、就是如何寻找体。判别分析的主要问题就是如何寻找最佳最佳的的判别函数和建立判别规则。判别函数和建立判别规则。误判问题误判问题 肝功指标高就一定是肝炎病人吗?肝功指标高就一定是肝炎病人吗?误判率误判率Misclassification(1-D case)两总体单指标的判别分析,假设正态分布,等方差判别规则转氨酶肝炎肝炎患者患者非患者非患者非典?非典??Best-In What Sense?Minimizes probability of misclassification Maximizes posterior probability of correct classification Many
5、others For example minimizes the cost of misclassification 具体问题具体分析具体问题具体分析 疾病的诊断疾病的诊断 市场分析市场分析Lots of perspectives suggest this basic rule as best影响误判率的因素影响误判率的因素当分布中心过于接近,误判率很高三总体单指标组均值差异组均值差异Three groups-Two features二、两总体判别分析二、两总体判别分析 基本思想:样品和哪个总体距离最近,就判断它属基本思想:样品和哪个总体距离最近,就判断它属于那个总体。于那个总体。设:两个总体
6、设:两个总体G1和和G2,x是一个是一个p维样本,维样本,x到总体到总体G1和和G2的的马氏距离马氏距离分别记为分别记为d2(x,G1)和和d2(x,G2),判别规则:若判别规则:若d2(x,G1)d2(x,G2),认为认为x属于属于G2。或判别函数:或判别函数:W(x)=d2(x,G2)-d2(x,G1)0,x G10,x G2 当当W(x)001G1G2考察考察p=1的情况的情况21221G0G0)5.0()(W110 xxxx,则:,若 设设G1N(1,2)和和G2N(2,2),判别函数为:,判别函数为:21G0.5G0.50.50,)(Wxxxxxx解出或:令)(12)()(1)2()
7、(W2122121221axaxx,其中x=0.5误判率P(2/1)=0.3085误判率P(1/2)=?12时,非线性判别函数时,非线性判别函数)()()()()G,()G,()(W)()()G,()()()G,(111121221222212222111112xxxxxxxxxxxxxdddd判别函数判别函数W(x)为为x的二次函数的二次函数直观判断直观判断x0属于哪属于哪一类?一类?G1:N(80,0.25)G2:N(75,4)21227580 x0=78 已知已知G1是设备是设备A生产的产品,生产的产品,G2是设备是设备B生产的产品。生产的产品。A设备质量高,其产品平均耐磨度设备质量高,
8、其产品平均耐磨度 1=80,方差,方差 12=0.25,B设备质量较差,其产品平均耐磨度设备质量较差,其产品平均耐磨度 2=75,方差,方差 22=4。现有一产品现有一产品X0,其耐磨度,其耐磨度x0=78,试判断该产品是哪台,试判断该产品是哪台设备生产的。建立判别规则,误判率多大?设备生产的。建立判别规则,误判率多大?考察考察p=1的情况的情况直观上看,x0距1较近,但是考虑到相对分散度,20102202222220202221210102Gx:)G,x(d)G,x(d25.24)7578()x()G,x(d1625.0)8078()x()G,x(d2122112122xxxx,Gxxxx,
9、Gx81.7x79,x025.0)80 x(4)75x(W(x)或当当判别函数判别准则x1x22.Fisher 判别法判别法 判别思想:投影,使多维问题简化为一维判别思想:投影,使多维问题简化为一维问题来处理问题来处理 方法:寻找原变量方法:寻找原变量x的一个线性组合,使得的一个线性组合,使得各组在此方向上投影的差异最大化,再选各组在此方向上投影的差异最大化,再选择合适的判别规则对样品进行分类判别。择合适的判别规则对样品进行分类判别。Fishers approachFind a linear combination of variables x that would produce“maxim
10、ally different”discriminant scores across group数学模型数学模型 设:线性组合的系数向量为设:线性组合的系数向量为a,考虑线性考虑线性组合:组合:z=xaz:x在在a方向的投影方向的投影 通过寻找合适的通过寻找合适的a,使投影到此方向的组,使投影到此方向的组间变异大,组内变异比较小,即使组间间变异大,组内变异比较小,即使组间变异变异/组内变异(离差平方和)取最大值。组内变异(离差平方和)取最大值。两总体两总体Fisher判别函数判别函数 设:两协差阵相等的总体设:两协差阵相等的总体G1:n1个样本,个样本,G2:n2,1,2和和 分别表示两总体均值
11、和总均值分别表示两总体均值和总均值 线性组合的系数向量为线性组合的系数向量为a,考虑线性组合:考虑线性组合:z=xa 投影后的组内变异:组内离差平方和为投影后的组内变异:组内离差平方和为aaaaaaaawiiiiiiiiiiiiiiiiwSSxxxxxxxxzzzzSS )()()()()()()()(2)2(2)2(1)1(1)1(2)2(2)2(1)1(1)1(2)2()2(2)1()1(投影后的组间变异:组间离差平方和为投影后的组间变异:组间离差平方和为addadaddddaauuauua1211)()()()()()()(221222211122212)2(22)1(1AASSnnnn
12、nnnnnnzznzznSS)(dadaddaaddaaa)(aa)a)(adda)dda)(aaaaaddaa121112aLLLLLFisher有:都是标量,和,得到:两边乘取得最大值使得选择1102/022:以上证明,当以上证明,当a-1(2-1)时满足我们的时满足我们的要求,即:判别投影方向要求,即:判别投影方向在两类均值点在两类均值点的连线上的连线上。通常我们将。通常我们将a标准化。标准化。判别函数为:判别函数为:z=x-1(2-1)判别规则:判别规则:zc时,时,xG2;zc时,时,xG1,2/)(21zzcLinear Discriminatorscritical value投影
13、方向判别函数判别得分c2c1,xG1c30.43buyer0.141.9,33.073.1221SPSS输出输出结果结果判别规则:zc=(1.018-0.0922)/2=0.4629buyer判别函数:判别函数:artnummonthz412.1105.0086.0规范判别式函数系数规范判别式函数系数-.0511.412.086monthartnum(常量)1函数非标准化系数组质心处的函数组质心处的函数-.0921.018buystatu011函数在组均值处评估的非标准化规范判别式函数判别变量和标准化判别判别变量和标准化判别函数的相关系数函数的相关系数购买艺术书越多的顾客越可能购买,越近期的顾
14、客越可能购买结构矩阵结构矩阵.914-.376artnummonth1函数判别变量和标准化规范判别式函数之间的汇聚组间相关性按函数内相关性的绝对大小排序的变量。标准化的规范判别式函数系数标准化的规范判别式函数系数-.405.927monthartnum1函数判别得分的分布判别得分的分布6.506.005.505.004.504.003.503.002.502.001.501.00.500.00-.50-1.00-1.50Canonical Discriminant Function 1BUYSTATU=05004003002001000Std.Dev=.93 Mean=-.09N=917.00
15、5.505.004.504.003.503.002.502.001.501.00.500.00-.50-1.00-1.50Canonical Discriminant Function 1BUYSTATU=15004003002001000Std.Dev=1.56 Mean=1.02N=83.00Non-buyersbuyersz=0z=0分类结果分类结果a a70221591735488376.623.4100.042.257.8100.0buystatu0101计数%初始01预测组成员合计已对初始分组案例中的 75.0%个进行了正确分类。a.回判结果回判结果误判率误判率25%发出263封订
16、购信,约18.3%会订购协方差阵相等的检验协方差阵相等的检验-Boxs test H0:1=2=m 协方差不等时的判别:非线性判别函数协方差不等时的判别:非线性判别函数 如果仍用线性判别,误判率增大如果仍用线性判别,误判率增大组内协方差相等时G1G2G22221Books by mailClassification Resultsa70221591735488376.623.4100.042.257.8100.0BUYSTATU0101Count%Original01Predicted GroupMembershipTotal75.0%of original grouped cases cor
17、rectly classified.a.协方差相等算法的误判率协方差不等算法的误判率发出263封订购信,约18.3%会订购发出197封订购信,约20.3%会订购检验结果检验结果77.80925.7063243266.71.000箱的 M近似。df1df2Sig.F对相等总体协方差矩阵的零假设进行检验。分类结果分类结果a a76015791743408382.917.1100.051.848.2100.0buystatu0101计数%初始01预测组成员合计已对初始分组案例中的 80.0%个进行了正确分类。a.判别函数的鉴别能力判别函数的鉴别能力类中心差异的显著检验类中心差异的显著检验Wilkss
18、 test 为什么要检验?为什么要检验?类中心距离太近时,误判率高。类中心距离太近时,误判率高。如果某个判别函数不能拒绝原假设,则这个如果某个判别函数不能拒绝原假设,则这个判别函数的判别能力很差判别函数的判别能力很差n 如何检验:该判别函数在各类中心相等 H0:1=2Wilks 的 LambdaWilks 的 Lambda.91489.6112.000函数检验1Wilks 的Lambda卡方dfSig.3.Bayesian approach 前面两种方法中都没有考虑各类中样本前面两种方法中都没有考虑各类中样本数的差异数的差异 没有考虑误判带来的不对称经济损失没有考虑误判带来的不对称经济损失 当
19、各类样本数不同当各类样本数不同/误判损失不对称时,误判损失不对称时,是否会影响判别函数的选取或判别规则?是否会影响判别函数的选取或判别规则?Incorporating Prior Probs考虑先验概率R1的误判率高于R2考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整考虑到各类样本容量不同对误判率的影响,判别规则应作适当调整3.Bayesian approach 贝叶斯的统计思想:假定对研究的对象已有贝叶斯的统计思想:假定对研究的对象已有一定的认识(常用先验概率反映这种认识),一定的认识(常用先验概率反映这种认识),然后抽取一个样本,用样本来修正已有的认然后抽取一个样本,用样本来修
20、正已有的认识。识。影响分类的因素影响分类的因素 先验概率先验概率 用概率描述的人们事先对所研究对象的认识用概率描述的人们事先对所研究对象的认识 误判损失误判损失cost of misclassification:x被判为属于被判为属于G2,而它实际属于,而它实际属于G1,则称发生了误判,则称发生了误判 误判可能会带来经济损失误判可能会带来经济损失 当误判损失不对称时(比如当误判损失不对称时(比如G1样本误判为样本误判为G2的成本的成本是是G2样本误判为样本误判为G1的成本的的成本的10倍时),我们通常会倍时),我们通常会改变判别准则(使之偏向误判成本低的一方),宁可改变判别准则(使之偏向误判成
21、本低的一方),宁可将将G2误判给误判给G1,也不愿相反。,也不愿相反。3.Bayesian approach 基本思路:误判期望损失最小化 设有m个总体G1,Gm,其概率密度函数分别为fi(x),i=1,2m。来自总体Gi的样品x被错判为总体Gj所产生的损失为C(j/i),那么,对于判别规则R产生的误判概率记为P(j/i,R),有:jRidxxfRijP)(),/(如果已知x来自总体Gi的先验概率为qi(i=1,2,m),则在规则R下,误判期望损失为:mjmiiRijPijCqRg11),/()/()(贝叶斯定理贝叶斯定理 若总体若总体G1,Gm的先验概率为的先验概率为qi,且相应的密,且相应
展开阅读全文