中文信息处理的学科理论课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《中文信息处理的学科理论课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 中文信息处理 学科 理论 课件
- 资源描述:
-
1、第五章第五章 中文信息处理的学科理论中文信息处理的学科理论授课时间:2007年1月9日 授 课 人:徐艳华 信息处理的句法理论信息处理的句法理论 信息处理的语义理论信息处理的语义理论 中国计算语言学的理论影响中国计算语言学的理论影响 一、短语结构语法 语言知识的形式化表达手段主要有三种:形式语法、状态转移网络以及特征结构与合一运算。以这些表达手段为基础,对具体的一种自然语言(如汉语)的语言知识进行系统的整理,就得到了关于这种语言的形式语法理论体系。目前基于规则的自动句法分析的形式语法理论主要有短语结构语法、转换生成语法、管辖约束理论、广义的短语结构语法、功能合一语法、词汇功能语法、中心词驱动的
2、短语结构语法、范畴语法、依存语法、树连接语法、链语法等。这些理论都是在计算语言学中经常使用的,它们是学习和研究时应该具备的计算语言学的基础知识。其中,短语结构语法是各种理论和方法的基础。1、短语结构语法的形式化定义 短语结构语法PSG可以定义为一个四元组:G=其中,T是终结符号(terminal symbols)的集合,任何一部现代汉语词典中的词都可以成为这部语法中的终结符号。N是非终结符号的集合,包括词类标记(如名词N,动词V等等)和短语功能标记(如名词性短语NP,动词性短语VP等等)。S是N中的一个元素,称作起始符,语言中的每个句子都是从这个起始符开始推导。P代表一组式子组成的集合,P中的
3、式子具有这样的形式:。一般把具有上面这种形式的式子称为“产生式规则”(production rule)或“重写规则”(rewriting rule),式子中的箭头“”表示替换的意思,即将左边的字符串替换为箭头右边的字符串。产生式需要满足下面三个条件:可以是T和N上的任意字符串,但不能是空字符;可以是T和N上的任意字符串,也可以是空字符;P中至少有一个产生式中的必须由S来充当。一条“产生式”就是一条句法规则。不同类型的语法对规则的形式有不同的限制,句法分析前首先要确定使用什么类型的语法。2、短语结构语法的乔姆斯基分类 乔姆斯基对短语结构语法的重写规则给予不同的限制,得到了4种不同的语法,由于它们
4、是一层套一层的,所以被人们成为“乔姆斯基层级”(1)无约束短语结构语法 又叫0型语法或无限制语法,对于该语法中的每一条产生式,没有任何限制,那么它就成为乔姆斯基层级中生成能力最强的一种形式体系,即0型语法。被这种无约束短语结构语法所定义的语言叫0型语言。(2)上下文有关语法如果语法中的每一条产生式都满足|,即规则左部的符号个数少于或等于规则右部的符号个数(如ABCAbC或者ABCADEC),这种语法就称为上下文有关语法或1型语法。由这种语法产生的语言成为1型语言。是抽象的产生式,其中和都是变量,我们不妨以具体的产生式为例来理解这种语法。如产生式:aXcabc 这条产生式的意思是:如果X出现在上
5、下文“a/c”中,即上文紧挨着符号串a,下文紧挨着符号串c,则非终结符X可以重写为终结符b。因为一个符号的重写依赖于其上下文,这就是这种语法被称为上下文有关语法的原因。(3)上下文无关语法如果一个短语结构语法中的每条规则都采用A的形式,其中,AN,(TN),即每条产生式的左侧必须是一个单独的非终结符,规则右部是非终结符和终结符的组合或者是终结符。在这种形式体系中,规则被应用时不依赖于符号A所处的上下文,因此称为上下文无关语法,又叫2型语法。由这种语法产生的语言叫2型语言比如规则集:S(S)Sx所生成的语言就是一个上下文无关语言。它可以生成成对的括号表达式:x,(x),(x)(4)正则语法又称3
展开阅读全文