《模式识别原理与应用》课件第7章.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《模式识别原理与应用》课件第7章.ppt》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 模式识别原理与应用 模式识别 原理 应用 课件
- 资源描述:
-
1、第章结构模式识别第第7章结构模式识别章结构模式识别7.1结构模式识别概述结构模式识别概述7.2形式语言与自动机形式语言与自动机7.3高维文法和随机文法高维文法和随机文法7.4句法分析句法分析7.5文法推断文法推断习题习题第章结构模式识别7.1结构模式识别概述结构模式识别概述统计模式识别是从模式中提取一组特性的度量,构成特征向量来表示模式,然后通过划分特征空间的方式进行分类。对于较复杂的模式,要对其充分描述需要很多特征,以至过于复杂。第章结构模式识别结构模式识别又称句法模式识别,它采用一些比较简单的子模式组成多级结构来描述一个复杂模式,先将模式分为子模式,子模式又分为更简单的子模式,依次分解,直
2、至在某个研究水平上不再需要细分。最后一级最简单的子模式称为模式基元,识别模式基元比识别原模式要简单得多。结构模式识别主要突出模式的结构信息,常用于以结构特征为主的目标识别中,例如指纹、染色体和汉字识别等。图7-1所示是一个模式多级分解的例子。第章结构模式识别图7-1 模式分解示意图第章结构模式识别结构模式识别法将观察对象表达为一个由基元组成的句子,将模式类表达为由有限或无限个具有相似结构特性的模式组成的集合。基元构成模式所遵循的规则即为文法,或称句法。与统计模式识别类似,用已知类别的训练样本进行学习,产生该类或至少是这些样本的文法,这个学习和训练过程称为文法推断。第章结构模式识别结构模式识别的
3、系统框图如图7-2所示,包括预处理、模式表达、句法分析和文法推断四个部分。其中,模式表达包括两部分:模式分割和基元及关系的识别。对于一个模式,经过预处理并对模式分解提取基元后,得到表征模式的句子,然后进行句法分析,判断它是否能被代表某个模式类的文法所接受,最终给出识别结果和模式的结构描述。第章结构模式识别图 7-2结构模式识别系统框图第章结构模式识别7.2形式语言与自动机形式语言与自动机形式语言的渊源可以追溯到20世纪50年代中期,乔姆斯基(Chomsky)等在研究自然语言的过程中发展了文法的数学模型。他将语言形式地定义为由一个字母表中的字母组成的串的集合,在字母表上按照一定的规则定义一个文法
4、,该文法产生的所有句子组成的集合就是该文法产生的语言。若一个句子能由某种语言对应的文法产生,则判断这个句子属于该语言。第章结构模式识别克林(Kleene)在研究神经细胞时提出了自动机,用它来识别语言。按照一定规则构造任意一个自动机,该自动机所能识别的所有句子组成的集合就是一个语言,即一个自动机定义了一个语言。文法和自动机是表示语言的两种不同方法。1959年,乔姆斯基通过深入研究,证明文法和自动机具有等价性。第章结构模式识别7.2.1短语结构文法短语结构文法1.字母表和字符串字母表和字符串字符的有限集合称为字母表,记为V。由字母表V中的字符构成的有限序列称为字母表V上的字符串(链)。例如字母表V
5、=a,b,c,z,0,1,9,即表由26个英文字母和10个阿拉伯数字构成,则字符串可以是a,b,012,ce78等。一个字符串所包含字符的个数称为该字符串的长度,字符串x的长度记为|x|。允许有不含任何符号的空串,记为,空串的长度为零。第章结构模式识别假设X和Y都是字母表V上的字符串,则XY称为字符串X和Y的连接。字母表上的任意一个字符串W与空串的连接还是W,即W=W=W。V+是字母表V上所有字符串构成的集合,V*是字母表V上所有字符串和空串构成的集合,有V*=V+。第章结构模式识别2.短语结构文法短语结构文法定义7.1短语结构文法是一个四元组:G=(VN,VT,P,S)其中:VN为非终止符集
6、,通常用大写字母表示;VT为终止符集,通常用小写字母表示,VNVT=V,且VNVT=,即VN与VT不相交;P是形如的产生式有限集,且V+,V*,符号“”的含义是“能够再写为”;SVN为起始符。第章结构模式识别如果A是P中的产生式,和是V*中的字符串,则有 GA 称是A的直接推导。设,0,1,n,都是V*中的字符串,且有=0,=n,其中i直接推出i+1(0in1),则称序列是长度为n的直接推导序列,可记为n10G即*G包含了G和。第章结构模式识别有一文法G=(VN,VT,P,S),若,且是终止符和非*GS终止符组成的字符串,则是文法G的句型;若V*T,则是文法G的句子,即句子是由终止符组成的符号
7、串。定义定义7.2文法G=(VN,VT,P,S)产生的语言L(G)是由S开始根据G推出的所有终止符串组成的集合,|)(*xSVxxGLGT第章结构模式识别【例例 7.1】给定文法G=(VN,VT,P,S),其中:,ASVNaVT,aSAaASaSP,由文法产生的语言L(G)如下:,()Sa aL G,()SaAaaSaaa aaaL G,()SaAaaSaaaAaaaaSaaaaa aaaaaL G第章结构模式识别以此类推,该文法生成的语言的一般形式是0|)(12naGLn3.文法的分类文法的分类乔姆斯基(Chomsky)分类体系将短语结构文法分为四种类型,即0型、1型、2型和3型文法。1)0
8、型文法0型文法是对P中产生式的形式不加任何限制的文法,又称为无约束文法。由此可知,任何一个文法必然是0型文法。只有0型文法才允许有产生空句的产生式。第章结构模式识别2)1型文法1型文法也称上下文有关文法,它对每一产生式的形式限制为1A212,其中1、2V*,AVN,V+。文法的含义是在1和2之间的非终止符A可被重写为,1和2被视为A的上下文。第章结构模式识别理论上讲,每步推导时,可以对句型中的任何一个非终止符进行表达式替换。在形式语言理论中,为了简单,常采取每次对最左边的或最右边的非终止符进行表达式替换,即采用最左推导或最右推导。最左推导即每次对最左边的非终止符进行推导,最右推导即每次对最右边
9、的非终止符进行推导。不论是采用最左推导还是最右推导,其目的均在于简化推导过程。1型文法的一种等价定义是:产生式集P的形式为,、V+,且|。第章结构模式识别【例例 7.2】给定文法),(SPVVGTN,,BASVN,,baVT:PaSABS 改写为aSABS aABS 改写为aSABSabaA 改写为abaA bbbA改写为bbbA 第章结构模式识别该文法为上下文有关文法。虽然表面上看上下文不完整,但根据1、2V*,可以有1=2=,经过改写就可以明显看出给定文法是上下文有关的。或者根据1型文法的另一种定义,本例中每个产生式左部字符串长度小于或等于右部字符串长度,表明给定文法是上下文有关的。第章结
10、构模式识别3)2型文法型文法2型文法也称上下文无关文法,它要求每一产生式的形式为A,其中AVN,V+。产生式的左端是单个非终止符A,可被重写为右端的字符串,而与A的上下文无关。4)3型文法3型文法也称正则文法,或称正规文法、有穷文法、有限状态文法。对每一产生式的形式限制为AaB或Ab,其中A、BVN,a、bVT。第章结构模式识别由定义可以看出,从0型文法到3型文法,对产生式的限制越来越严格,四种文法的类别包含关系是:3型 2型 1型0型。对应四类文法,产生的语言也分为四类。0型文法产生的语言称为无限制性语言,1型文法产生的语言称为上下文有关语言,2型文法产生的语言称为上下文无关语言,3型文法产
11、生的语言称为正则语言。第章结构模式识别每一种类型的语言对应一种识别器,即每个语言的句子都能被某种识别器所接受。句法识别器可以被视为一个离散控制系统,一个离散控制系统可以模型化为一个自动机。短语结构文法和自动机之间的对应关系如下:文法类型 自动机类型 0型文法 图灵机 1型文法 线性有界自动机 2型文法 下推自动机 3型文法 有限自动机第章结构模式识别7.2.2正则文法和有限自动机正则文法和有限自动机定义定义7.3一个确定的有限状态自动机Af是一个五元组:),(0FqQAf其中:Q为有限状态集;是有限输入字母表;是QQ的映射;q0为起始状态;为终止状态集。QF 第章结构模式识别图7-3给出了有限
12、状态自动机的一般表示。有限状态自动机由一个带有读头的有限控制器和一条写有字符的输入带组成。有限控制器包含有限个状态,读头从左到右依次从输入带上读入字符,每当读头从输入带上读入一个字符时,控制器的状态发生改变,即出现状态转换。第章结构模式识别图 7-3有限状态自动机 第章结构模式识别假设映射(q,a)=q,其中,q、qQ,a,表示的意思是有限状态自动机当前处于状态q,读头从输入带上读入字符a,自动机的状态转换为q,读头从左到右移动一个方格。可以用状态转移图方便地描述映射,相应于映射(q,a)=q的状态转移图如图7-4所示。每个状态标以一个节点,终止状态集F中的状态用双圈标示,状态集Q中F以外的节
13、点用单圆圈表示。第章结构模式识别图 7-4(q,a)=q的状态转移图第章结构模式识别对确定的有限状态自动机而言,由当前状态及读入字符决定的下一步状态是确定的。确定的有限状态自动机Af接受的全部字符串的集合为),(,|)(0FxqxxALf上式表明,若一个串x被自动机接受,要求自动机Af从起始态q0出发,经输入串x后,状态最后转换到终止态上。第章结构模式识别【例例 7.3】设确定的有限状态自动机Af=(Q,q0,F),其中:,210qqqQ,ba,0qF:10),(qaq,21),(qaq,12),(qaq20),(qbq,01),(qbq02),(qbq自动机的状态转移图如图7-5所示。第章结
14、构模式识别图 7-5例7.3的有限状态自动机的状态转移图第章结构模式识别自动机Af从起始态q0出发,输入串x=aabbab,在逐个读入x的各字符时,自动机的状态变化过程为0120210qqqqqqqbabbaa整个输入串读完后,自动机处于状态q0F,所以输入串x被自动机接受。定义定义7.4一个非确定的有限状态自动机Af是一个五元组:),(0FqQAf第章结构模式识别与确定的有限状态自动机相比,只是映射规则不同,是Q2Q的映射。对非确定的有限状态自动机而言,在当前状态及输入符号确定的情况下,下一步的状态不唯一,即(q,a)是一个状态集合(可能为空)。例如(q,a)=q1,q2,ql,它的解释是:
15、非确定的有限状态自动机处于状态q,读头从输入带上读入字符a,选择q1,q2,ql中的任意一个作为下一步状态,并将读头向右移动一格。第章结构模式识别非确定的有限状态自动机Af接受的语言也定义为输入串后能停留在终止态上的所有串的集合:),(,|)(0FpxqpxxALf定理定理7.1设L是一个非确定的有限状态自动机),(0FqQAf所接受的语言,则有一个能接受L的确定的有限状态自动机),(0FqQAf第章结构模式识别fA的状态是Af的状态的所有子集,即,QQ200qq,是中包含F的一个状态的所有状态集合。映射为FQ1212(,),ijq qqap pp当且仅当 121(,),ikjkq appp第
16、章结构模式识别由于确定的有限状态自动机和非确定的有限状态自动机接受同样的语言,在讨论有限状态自动机时,可以不区分是确定的有限状态自动机还是非确定的有限状态自动机。定理定理7.2设G=(VN,VT,P,S)是一个正则文法,则存在一个有限状态自动机Af=(Q,q0,F),满足L(Af)=L(G),其中:(1)=VT,Q=VNT,T为一附加的非终止符,q0=S;(2)如果P包含产生式S,则F=S,T,否则F=T;(3)如果P包含产生式Ba,BVN,aVT,则T(B,a);(4)如果P包含产生式BaC,B、CVN,aVT,则C(B,a)。第章结构模式识别定理定理7.3给定一个有限状态自动机Af=(Q,
17、q0,F),则存在一个正则文法G=(VN,VT,P,S),满足L(G)=L(Af),其中:(1)VN=Q,VT=,S=q0;(2)如果(B,a)=C,且B、CQ,a,则P包含产生式BaC;(3)如果(B,a)=C,且CF,则P包含产生式Ba。定义定义7.5两个有限状态自动机Af、,若有 fA)()(ffALAL则称Af和 等价。fA第章结构模式识别7.2.3 上下文无关文法和下推自动机上下文无关文法和下推自动机1.乔姆斯基乔姆斯基(Chomsky)范式范式定义定义7.6上下文无关文法G=(VN,VT,P,S),若P中的产生式形式都是ABC或Aa,A、B、CVN,aVT,则G是Chomsky范式
18、文法,或称G为Chomsky标准型。定理定理7.4若G为上下文无关文法,且,则有Chomsky范式文法,满足L()=L(G)。对给定的上下文无关文法G,求出一个Chomsky范式文法使,称为把G化为Chomsky标准型。),(SPVVGTN)()(GLGLGG)(GL第章结构模式识别2.格雷巴赫格雷巴赫(Greibach)范式范式定义定义7.7上下文无关文法G=(VN,VT,P,S),若P中的产生式形式都是A且不含产生式,AVN,VT,V*N,则G是Greibach范式文法,或称G为Greibach标准型。定理定理7.5若G为上下文无关文法,且,则有Greibach范式文法,满足L()=L(G
19、)。对给定的上下文无关文法G,求出一个Greibach范式文法,使,称为把G化为Greibach标准型。GG)(GL),(SPVVGTN)()(GLGL第章结构模式识别3.下推自动机下推自动机若文法G中至少存在一对形式推导:ASG*和AAG*其中,,,则文法称NVA*V、V、为自嵌套或自嵌入的,非终止符A也称为自嵌套的。第章结构模式识别若上下文无关文法G的导出包括,和uAySG*vAxAG*,其中 ,则有推导序列 wAG*TVyxwvu,0,*iywxuvyAxuvuvvAxxyuvAxyuAySiiGiiGGGGG第章结构模式识别即语言L(G)是可数无穷集uviwxiy|i0。尽管有限状态自
20、动机能够识别正则语言,但不能识别这个集合。这是因为子串vi的出现必须严格地平衡子串xi的出现,而且在L(G)中存在着含有大量v和x的句子,其中,v和x的数量大大超过任何具有有限确定存储量的自动机所能容许的数量。第章结构模式识别下推自动机有一个辅助存储器,能够处理在导出中使用了自嵌套的句子。下推自动机的辅助存储器是一个容量可以任意大的堆栈,又称为下推存储器。在堆栈中,最新存入的符号把所有先前存入的符号向下推,将自己置于堆栈顶部。下推自动机的一般表示如图7-6所示。第章结构模式识别图 7-6下推自动机 第章结构模式识别定义定义7.8 一个下推自动机是一个七元组:),(00FZqQAP其中:Q为有限
21、状态集;是有限输入字母表;是有限下推字符表;q0为起始状态;为终止状态集;Z0是下推存储器顶端的初始字符;是Q()Q*映射的有限子集。QF 第章结构模式识别对于一个下推自动机,有两种能接受的语言:(1)由终止态接受的语言。定义为L(AP)=x|x+,从状态q0和栈顶Z0开始,读完字符串x,AP停在F的一个状态上(2)由存储器变空方式接受的语言。定义为L(AP)=x|x+,从状态q0和栈顶Z0开始,读完字符串x,AP的堆栈变为空第章结构模式识别【例例 7.4】下推自动机AP=(Q,q0,Z0,F),其中,Q=q0,q1,q2,=0,1,=Z,A,B,Z0=Z,F=q0,为),(),0,(10AB
22、qZq),(),0,(11AAqAq),(),1,(21qAq),(),1,(22qAq),(),0,(02qBq第章结构模式识别则字符串x=00110可被下推自动机以存储器变空方式所接受,因为),(),(),(),(),(),(00212110100qBqABqAABqABqZqx:定理定理7.6对于某个下推自动机M1,L是必然存在另一个下推自动机M2,且有L=L(M2)。由该定理可知,若L是M1以空堆栈方式接受的语言,必有另一下推自动机能以终止态方式接受它,反之亦然。)(1ML第章结构模式识别定理定理7.7设L(G)是文法G=(VN,VT,P,S)以Greibach标准型产生的上下文无关语
23、言,则存在一个下推自动机AP=(Q,q0,Z0,F),使得 ,其中:(1)=VT,Q=q0,=VN,Z0=S,;(2)如果P包含产生式A,AVN,VT,V*N,则中有(q0,a,A)=(q0,)。F )()(GLALP第章结构模式识别在此定理中,将状态集合设置为只含一个元素的集合,简化了状态的表达,换句话说,可以不考虑状态所反映的信息,只需关注下推存储器所包含的信息即可。定理定理7.8设L(AP)是下推自动机AP=(Q,q0,Z0,F)所接受的语言,则存在上下文无关文法G=(VN,VT,P,S),使得L(G)=L(AP)。第章结构模式识别7.3高维文法和随机文法高维文法和随机文法上一节研究的文
24、法只适用于描述基元间的左右连接关系,一般用于描述一维的模式。但模式识别中的许多问题不仅仅是一维的,还有二维的、三维的,甚至更高的维数。对于较复杂的模式,就需要研究高维文法。高维文法有很多种,在此只介绍树文法和网文法。7.3.1树文法和识别器树文法和识别器树文法是高维文法中应用最广泛的一种。树文法的根本特点是,树中的节点可以拥有多个直接后代节点,描述多重连接关系。第章结构模式识别1.树文法树文法树T是一个或一个以上节点的有限集,它具有如下性质:(1)具有一个唯一的指定为根的节点;(2)其余节点分到m个不相交的集合T1,T2,Tm,其中每一个集合本身都是一个完整的树,被称为T的子树。在树T中,一个
25、节点的直接子节点的数目定义为该节点的秩。假定某个节点a有秩r1,r2,rn,该节点的秩的集合记作r(a)=r1,r2,rn。第章结构模式识别定义定义7.9树文法是一个四元组:),(SPrVGT其中:V=VNVT是由非终止符和终止符构成的有限集合;,Z+表示非负整数,即r=(a,r(a)|aV,规定了V中元素的秩;P是形如TiTj的产生式有限集,Ti和Tj都是树;STV是起始树有限集,TV是V中元素作为节点标记的子树集合。2ZrV第章结构模式识别定义定义7.10L(GT)为GT生成的语言:,|)(*STTTTTTGLiGiTTT其中,TT为用终止符集VT中元素作节点标记的树的集合。如果树文法的所
展开阅读全文