第判别分析课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《第判别分析课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 判别分析 课件
- 资源描述:
-
1、第判别分析第判别分析(优选)第判别分析(优选)第判别分析n把这类问题用数学语言来表达,可以叙述如下把这类问题用数学语言来表达,可以叙述如下n 设有设有k个个m维总体(或类别)维总体(或类别)G1,G2,Gk,(1)、它们的分布特征已知,已知分布函、它们的分布特征已知,已知分布函数分别为数分别为F1(x),F2(x),Fk(x);n (2)、或知道来自各总体的样本(训练样本)。、或知道来自各总体的样本(训练样本)。n 对给定的一个新样本对给定的一个新样本X(检测样本),判断(检测样本),判断X来自哪一个总体(类)。来自哪一个总体(类)。n 判别分析内容很丰富,方法很多。判断分析按判别的总体判别分
2、析内容很丰富,方法很多。判断分析按判别的总体数来区分,有两个总体判别分析和多总体判别分析;按区分数来区分,有两个总体判别分析和多总体判别分析;按区分不同总体所用的数学模型来分,有线性判别和非线性判别;不同总体所用的数学模型来分,有线性判别和非线性判别;按判别时所处理的变量方法不同,有逐步判别和序贯判别等。按判别时所处理的变量方法不同,有逐步判别和序贯判别等。判别分析可以从不同角度提出问题,因此有不同的判别准则,判别分析可以从不同角度提出问题,因此有不同的判别准则,如马氏距离最小准则、如马氏距离最小准则、Fisher准则、平均损失最小准则、最准则、平均损失最小准则、最小平方准则、最大似然准则、最
3、大概率准则等等,按判别准小平方准则、最大似然准则、最大概率准则等等,按判别准则的不同又提出多种判别方法。本章仅介绍常用的几种判别则的不同又提出多种判别方法。本章仅介绍常用的几种判别分析方法距离判别法、分析方法距离判别法、Fisher判别法、判别法、Bayes判别法和逐步判别法和逐步判别法。判别法。第二节第二节 距离判别法距离判别法样本与哪一类总体的距离最近,就判别它属于哪一样本与哪一类总体的距离最近,就判别它属于哪一类总体。类总体。第二节第二节 距离判别法距离判别法一一 马氏距离的概念马氏距离的概念 二二 距离判别距离判别三三 判别分析的实质判别分析的实质 已知已知 ,两类,两类,是设备是设备
4、A生产的产品,质生产的产品,质量高,平均耐磨程度为量高,平均耐磨程度为 ,设备精度的,设备精度的方差方差 ;是设备是设备B生产的产品,质量生产的产品,质量稍差,稍差,。现有一产品。现有一产品X,测得,测得其耐磨度,试判断该产品是哪一台设备生产其耐磨度,试判断该产品是哪一台设备生产的?的?1G2G80)1(25.0214,7522)2(1G2G一、马氏距离的概念一、马氏距离的概念n 图图5.1设D1,D2,Dk是m维空间Rm的k个子集,如果它们互不相交,且它们的和集为Rm,则称D1,这时判别准则可以采用如下方法二 Bayes判别的基本方法又D1,D2,Dk是Rm的一个划分,判别法则为:点击Def
5、ine Range按钮,定义分组变量的取值范围。未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。三、线性判别函数的求法例如,将第一个待判样品的自变量值分别代入函数,得到按区分不同总体所用的数学模型来分,有线性判别和非线性判别;三、线性判别函数的求法这时判别准则可以采用如下方法第四节 费歇(Fisher)判别法均损失g(D*)达到最小,即即当样本 发生时,求他属于某类的概率。方差 ;n为此,我们引入一种由印度著名统计学家马哈拉诺为此,我们引入一种由印度著名统计学家马
6、哈拉诺比斯(比斯(Mahalanobis,1936)提出的)提出的“马氏距离马氏距离”的概的概念。念。二、距离判别二、距离判别 1、两个总体的距离判别问题、两个总体的距离判别问题 问题设有协方差矩阵问题设有协方差矩阵相等的两个总体相等的两个总体G1和和G2,其均值,其均值分别是分别是1和和 2,对于一个新的样品,对于一个新的样品X,要判断它来自哪个,要判断它来自哪个总体。总体。一般的想法是计算新样品一般的想法是计算新样品X到两个总体的马氏距离到两个总体的马氏距离D2(X,G1)和)和D2(X,G2),并按照如下的判别规则进行判断),并按照如下的判别规则进行判断这个判别规则的等价描述为求新样品这
7、个判别规则的等价描述为求新样品X到到G1的距离与到的距离与到G2的距离之差,如果其值为正,的距离之差,如果其值为正,X属于属于G2;否则;否则X属于属于G1。n首先考虑首先考虑 时的判别方法时的判别方法12 n n 一、Fisher判别的基本思想单击Continue按钮。设有总体 ,具有概率密度函 数 。均损失g(D*)达到最小,即2(a)未标准化的典型判别函数系数4 Classify子对话框稍差,。按区分不同总体所用的数学模型来分,有线性判别和非线性判别;用L(j|i;D)表示由判别法D判别归类时,将来自总体是设备B生产的产品,质量返回判别分析主界面,单击OK按钮,运行判别分析过程。合密度函
8、数为 ,先验概率为 ,并且根据以往的统计分析,知道 出现的概率为 。2、多个总体的距离判别例如,将第一个待判样品的自变量值分别代入函数,得到先验概率是一种权重(比例)。错判损失为 ,则贝叶斯判别的解Classification Function Coefficients(给出Bayes判别函数系数)本例中分类变量的范围为1到3,所以在最小值和最大值中分别输入1和3。n这里我们应该注意到这里我们应该注意到2、多个总体的距离判别、多个总体的距离判别三、判别分析的实质三、判别分析的实质n我们知道,判别分析就是希望利用已经测得的变量数我们知道,判别分析就是希望利用已经测得的变量数据,找出一种判别函数,
9、使得这一函数具有某种最优据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。性质,能把属于不同类别的样本点尽可能地区别开来。为了更清楚的认识判别分析的实质,以便能灵活的应为了更清楚的认识判别分析的实质,以便能灵活的应用判别分析方法解决实际问题,我们有必要了解用判别分析方法解决实际问题,我们有必要了解“划划分分”这样概念。这样概念。n设设D1,D2,Dk是是m维空间维空间Rm的的k个子集,如果个子集,如果它们互不相交,且它们的和集为它们互不相交,且它们的和集为Rm,则称,则称D1,n D2,Dk为为Rm的一个划分。的一个划分。n 这时判别准则可以采用如下
10、方法这时判别准则可以采用如下方法,1,iiXDXGik若 落入,则判n n 这样我们将会发现,判别分析问题实质上就是在某这样我们将会发现,判别分析问题实质上就是在某种意义上,以最优的性质对种意义上,以最优的性质对m维空间维空间Rm构造一个构造一个“划分划分”,这个,这个“划分划分”就构成了一个判别规则。就构成了一个判别规则。这一思想将在后面的各节中经常出现。这一思想将在后面的各节中经常出现。第三节第三节 贝叶斯(贝叶斯(Bayes)判别法)判别法一一 Bayes判别的基本思想判别的基本思想 二二 Bayes判别的基本方法判别的基本方法 n从上节看距离判别法虽然简单,便于使用。从上节看距离判别法
11、虽然简单,便于使用。但是该方法也有它明显的不足之处。但是该方法也有它明显的不足之处。第一,判别方法与各总体出现的概率的大小第一,判别方法与各总体出现的概率的大小无关;无关;第二,判别方法没有考虑错判所造成的损失。第二,判别方法没有考虑错判所造成的损失。n Bayes判别法就是为了解决这些问题而提出判别法就是为了解决这些问题而提出的一种判别方法。的一种判别方法。Bayes判别的基本思想判别的基本思想n先验概率先验概率n 先验概率是一种权重先验概率是一种权重(比例比例)。所谓。所谓“先验先验”是是n指先于我们判断决策之前。指先于我们判断决策之前。n 先验概率的赋值方法先验概率的赋值方法n 1、利用
12、历史资料及经验进行估计;、利用历史资料及经验进行估计;n 2、利用训练样本中各类样品占的比例、利用训练样本中各类样品占的比例 估估n计;计;n 3、假定、假定k个总体各自出现的概率相同,即个总体各自出现的概率相同,即1/k;inn先验概率先验概率(二)主要运行结果解释均损失g(D*)达到最小,即(注意这个选项不是要给出Fisher判别函数的系数。应该使平均错判损失最小。Predicted group membership存放判别样品所属组别的值;这一思想将在后面的各节中经常出现。它表示把样品X判归 的平均损失。32,F3=3882.77,F2=3528.2、针对多个总体的情形单击Continu
13、e按钮,返回主界面。为此,我们引入一种由印度著名统计学家马哈拉诺未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。均损失g(D*)达到最小,即第二,判别方法没有考虑错判所造成的损失。点击Define Range按钮,定义分组变量的取值范围。办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。这一思想将在后面的各节中经常出现。一 Bayes判别的基本思想这里值得注意的是,本书有几处利用极值原理求极值时,只给出了不要条件的数学推导,而有关充分条件的论证省略了,因为在实际问题中,往往根据问题本身的性质就能肯定有最大值(或最小值
14、),如果所求的驻点只有一个,这时就不需要根据极值存在的充分条件判定它是极大还是极小而就能肯定这唯一的驻点就是所求的最大值(或最小值)。77,F2=3528.22212()(,)()()(),tttDXDX GdXg tg tn在马氏距离的基础上,进一步考虑先验概率在马氏距离的基础上,进一步考虑先验概率及各组内协方差阵的不同,定义样品及各组内协方差阵的不同,定义样品X到各总体到各总体 的广义平方距离为的广义平方距离为(1,2,)tG tk1ln|()0 tiiSg t,若各组的协方差阵不全相等,若各组的协方差阵全相等,22ln|()0 tqg t,若先验概率不全相等,若先验概率全相等,其其中中广
15、义平方距离广义平方距离n广义平方距离判别准则广义平方距离判别准则n 22,()(),1,ttiXGDXDXit ik 判当时()Bayes判别准则判别准则一一 、最大后验准则最大后验准则 办公室新来了一个雇员小王,小王是好办公室新来了一个雇员小王,小王是好人还是坏人大家都在猜测。按人们主观意识,人还是坏人大家都在猜测。按人们主观意识,一个人是好人或坏人的概率均为一个人是好人或坏人的概率均为0.5。坏人总。坏人总是要做坏事,好人总是做好事,偶尔也会做是要做坏事,好人总是做好事,偶尔也会做一件坏事,一般好人做好事的概率为一件坏事,一般好人做好事的概率为0.9,坏,坏人做好事的概率为人做好事的概率为
16、0.2,一天,小王做了一件,一天,小王做了一件好事,小王是好人的概率有多大,你现在把好事,小王是好人的概率有多大,你现在把小王判为何种人。小王判为何种人。)/()()/(/(坏人做好事坏人好人做好事好人好人做好事好人做好事)好人PPPPPPP82.02.05.09.05.09.05.0)/()()/(/(坏人做好事坏人好人做好事好人坏人做好事坏人做好事)坏人PPPPPPP18.02.05.09.05.02.05.0 设有总体设有总体 ,具有概率密度函具有概率密度函 数数 。并且根据以往的统计分析,知道。并且根据以往的统计分析,知道 出现出现的概率为的概率为 。即当样本。即当样本 发生时,求他属
17、于某类的发生时,求他属于某类的概率。由贝叶斯公式计算后验概率,有概率。由贝叶斯公式计算后验概率,有:iG)(xfiiGiq0 x),2,1(kiGi)()()|(000 xfqxfqxGPjjiii判别规则判别规则)()()|(000 xfqxfqxGPjjlll)()(001maxxfqxfqjjiiki则则 判给判给 。0 xlG二、二、最小平均损失准则最小平均损失准则 设有总体设有总体 ,具有概率密度函数具有概率密度函数 并且根据以往的统计分析,知道并且根据以往的统计分析,知道 出现的概率为出现的概率为 ,其中其中iG)(xfiiGiq),2,1(kiGi11kqq又又D1,D2,Dk是
18、是Rm的一个划分,判别法则为:的一个划分,判别法则为:当样品当样品X落入落入Di时,则判时,则判 iGX ki,3,2,1 关键的问题是寻找关键的问题是寻找D1,D2,Dk划分,这个划分划分,这个划分应该使平均错判损失最小。应该使平均错判损失最小。错判概率:错判概率:P(j|i;D)用用P(j|i;D)表示由判别法表示由判别法D判别归类时,将来自总体判别归类时,将来自总体Gi的样品错判到总体的样品错判到总体Gj的概率。显然的概率。显然 jDiijdxxfGDXPDijP)()|();|(ji 用用L(j|i;D)表示表示由判别法由判别法D判别归类时,将来自总体判别归类时,将来自总体Gi的样品错
19、判到总体的样品错判到总体Gj所造成的损失。所造成的损失。错判损失:错判损失:L(j|i;D)错判概率和错判损失的估计!错判概率和错判损失的估计!n n *()min()Dg Dg D一切 定义定义 如果有判别法如果有判别法D*,使得,使得D*带来的平带来的平均损失均损失g(D*)达到最小,即达到最小,即则称判别法则称判别法D*符合贝叶斯判别准则,或称符合贝叶斯判别准则,或称D*为为贝叶斯判别的解贝叶斯判别的解 定理设有定理设有k的总体的总体 ,已知,已知 的联的联合密度函数为合密度函数为 ,先验概率为,先验概率为 ,错判损失为错判损失为 ,则贝叶斯判别的解,则贝叶斯判别的解 为为其中其中它表示
20、把样品它表示把样品X判归判归 的平均损失。的平均损失。1,kGGiGjG()if X(1,)iq ik(|)Lj i*1,kDDD*|()(),1,(1,)ttjDX h XhXjt jktk1()(|)()kjiiihXq L j i f Xn n n 第四节第四节 费歇(费歇(Fisher)判别法)判别法一一 Fisher判别的基本思想判别的基本思想 二二 Fisher判别函数的构造判别函数的构造 三三 线性判别函数的求法线性判别函数的求法 nFisher判别法是判别法是1936年提出来的,该方法的主要思想是通过年提出来的,该方法的主要思想是通过将多维数据投影到某个方向上,投影的原则是将总
21、体与总体将多维数据投影到某个方向上,投影的原则是将总体与总体之间尽可能的放开,然后再选择合适的判别规则,将新的样之间尽可能的放开,然后再选择合适的判别规则,将新的样品进行分类判别。品进行分类判别。一、一、Fisher判别的基本思想判别的基本思想n 二、二、Fisher判别函数的构造判别函数的构造1、针对两个总体的情形、针对两个总体的情形n 2、针对多个总体的情形、针对多个总体的情形n 均损失g(D*)达到最小,即这里极易混淆,请读者注意辨别。(二)主要运行结果解释Bayes判别的基本思想二、最小平均损失准则稍差,。G1)和D2(X,G2),并按照如下的判别规则进行判断错判概率:P(j|i;D)
22、并且根据以往的统计分析,知道 出现的概率为 。设有总体 ,具有概率密度函 数 。并且根据以往的统计分析,知道 出现的概率为 ,其中2,一天,小王做了一件好事,小王是好人的概率有多大,你现在把小王判为何种人。错判概率:P(j|i;D)对给定的一个新样本X(检测样本),判断X来自哪一个总体(类)。用L(j|i;D)表示由判别法D判别归类时,将来自总体按区分不同总体所用的数学模型来分,有线性判别和非线性判别;点击Define Range按钮,定义分组变量的取值范围。一、Fisher判别的基本思想2(a)未标准化的典型判别函数系数n 三、线性判别函数的求法三、线性判别函数的求法n n n n这里值得注
展开阅读全文