《自然语言处理》课件新模板 第十章 语言分析.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《自然语言处理》课件新模板 第十章 语言分析.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理 自然语言处理课件新模板 第十章 语言分析 自然语言 处理 课件 模板 第十 语言 分析
- 资源描述:
-
1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第第 十十 章章 自 然 语 言 处 理 任 务 之自 然 语 言 处 理 任 务 之 语 言 分 析语 言 分 析目录Contents章节概述1小节介绍2本章总结3章节概述B A C K G R O U N DONE章节概述 在自然语言中,词语之间的联系往往能对句子的语义产生巨大的影响,语言分析(parsing)是自然语言处理技术的核心任务任意,其涉及语言学、计算语言学、机器学习,以及认知语言等多个学科。近年来,随着人工智能的发展,语言分析因其在下游任务应用广泛而变得越发
2、重要。章节概述目前对自然语言的分析主要涉及两个方向分别是语法分析、语义分析:指对输入的文本句子进行分析以得到句子的语法结构的处理过程。语言学家L.Tesnire认为,一切结构语法现象可以概括为关联、组合和转位这三大核心。句法关联建立起词与词之间的从属关系;组合表现为句子中单个单词组合为短语结构;转位指可以改变语句中单词的相对位置,而不改变语句原本含义的现象。对应于L.Tesnire对关联和组合的阐释,在自然语言处理领域,学术界将语法分析任务划分为了两个子任务依存句法分析(Dependency Parsing)和成分句法分析(Constituence Parsing)。语法分析语法分析 一种相对
3、于语法分析更为高层的语言分析过程,它是指将自然语言转换成为机器可以理解的意义表示。语义分析语义分析章节概述本章将首先分别介绍依存句法分析、成分句法分析、语义分析三项主要语言分析任务的发展概况、任务定义及任务评价标准。章节末尾罗列了近年来学术界在三项任务上的最新研究,旨在帮助读者更好地理解语言分析任务的重点和难点,在掌握基础知识的同时能够产生进一步的思考。TWO小节介绍S E C T I O N I N T R O D U C T I O N概况10.1 依存句法分析10.1.1任务定义10.1.210.1.3评价标准10.1.1 依存句法分析 概况 在自然语言处理中,我们有时需要知道句子中词与
4、词之间的依赖关系,通过这种依赖关系来建模句子的语法结构。如在关系抽取任务领域,存在一种利用依存句法树,查找关系实体单词之间的公共父结点单词,并使用此单词作为关系分类的重要特征的方法。经过实验发现,通过这种方法从句子中找到的单词往往可以作为关系的指示词,对关系预测具有决定性作用。这种用词与词之间的依存关系来描述语法结构的框架称为依存语法,又称从属关系语法。依存语法的本质是一种结构语法,它主要研究以谓词为中心构句时,由深层语义结构映现为表层语法结构的状况及条件。结合到具体的语言中,就是谓词与体词之间的关系,名词与动词间的主谓关系、谓宾关系,形容词与名词间的补语关系等。常用的依存句法结构图有三种:0
5、30201一个句子只有一个独立的成分;句子的其他成分都从属于某一成分;任何一个成分都不能依存于两个或两个以上的成分;1970年,计算机语言学家J.Robinson提出了依存句法的四条公理:04如果成分A直接从属于成分B,而成分C在句子中位于A和B之间,那么,成分C或者属于成分A,或者从属于B,或者从属于A和B之间的某一成分。10.1.1 依存句法分析 概况 这四条公理相当于对依存图和依存树的形式约束:单一父节点、连通、无环和可投射性,由此来保证句子的依存分析结果是一棵有根的树结构。030201非交条件:依存树的树枝不能彼此相交;单一父结点条件:除根节点没有父结点外,所有的结点都只有一个父结点;
6、独根结点条件:一个依存树只能有一个根结点,它支配其他结点;为了便于理解,我国学者经过总结上述公理,提出了依存句法树应满足的5个条件:04互斥条件:从上到下的支配关系和从左到右的前于关系之间是相互排斥的,如果两个结点之间存在着支配关系,它们就不能存在前于关系。10.1.1 依存句法分析 概况 05单纯结点条件:只有终结点,没有非终结点;K.Schubert(舒贝尔特)在研制多语言机器翻译系统DLT的工作中,从语言信息处理的角度出发,也提出了用于语言信息处理的依存语法12条原则:10.1.1 依存句法分析 概况 0504030201句法只与语言符号的形式有关;句法研究从语素到语篇各个层次的形式特征
7、;句子中的单词通过依存关系而相互关联;依存关系是一种有向的同现关系;单词的句法形式通过词法、构词法和词序来体现;06一个单词对于其它单词的句法功能通过依存关系来描述;K.Schubert(舒贝尔特)在研制多语言机器翻译系统DLT的工作中,从语言信息处理的角度出发,也提出了用于语言信息处理的依存语法12条原则:10.1.1 依存句法分析 概况 1110090807词组是作为一个整体与其它词和词组产生聚合关系的语言单位,而词组内部的各个单词之间存在着句法关系,形成语言组合体;一个语言组合体内部只有一个支配词,这个支配词代表该语言组合体与句子中的其它成分发生联系;句子的主支配词支配着句子中的其它词而
8、不受任何词的支配,除了主支配词之外,句子中的其它词只能有一个直接支配它的词;句子中的每一个词只在依存关系结构中出现一次;依存关系结构是一种真正的树结构;12在依存关系结构中应该避免出现空结点。常见的依存句法分析方法可分为生成式依存分析方法、判别式依存分析方法、确定性依存分析方法三类:10.1.1 依存句法分析 概况 01生成式依存分析方法 生成式依存分析方法采用联合概率模型生成一系列依存语法树,并赋予其概率分值,然后采用相关算法找到概率打分最高的分析结果作为最后输出:10.1.1 依存句法分析 概况 判别式依存分析方法 判别式依存分析方法采用条件概率模型,避开了联合概率模型所要求的独立性假设,
9、训练过程即寻找使目标函数(训练样本生成概率)最大的参数(类似Logistic回归和CRF)。0210.1.1 依存句法分析 概况 确定性依存分析方法 确定性依存分析方法以特定的方向逐次取一个待分析的词,为每次输入的词产生一个单一的分析结果,直至序列的最后一个词。这类算法在每一步的分析中都要根据当前分析状态做出决策(如判断其是否与前一个词发生依存关系),所以这种方法又被称为决策式分析方法。而在确定性分析方法中,近年来的依存分析方法又可以被划分为基于图的和基于转移的两类,其中又以基于转移的分析方法最为常用。0310.1.1 依存句法分析 概况 确定性依存分析方法 2003年,Yamada和Mats
10、umoto最先提出了使用SVM(Support Vector Machine)来训练基于转移的依存分析算法。他们根据三种分析行为(shift,right,left)对输入的句子进行从左到右顺序构建一颗依存树,他们的算法属于自底向上的分析算法。分析器算法分为两步:1.使用目标节点周围上下文信息估计合适的分析行为;2.依据所执行的行为构建一个依存树。03概况10.1 依存句法分析10.1.1任务定义10.1.210.1.3评价标准10.1.2 依存句法分析 任务定义 在自然语言处理领域,依存句法分析任务可以看做是给定输入句子S=_0 _1 _2_n,使得句子中每一个词_i都依赖于另一个词_j,并分
11、辨依赖关系的类型,以构建对应于整个句子的依赖树的任务。概况10.1 依存句法分析10.1.1任务定义10.1.210.1.3评价标准10.1.3 依存句法分析 评价标准 针对一个依存句法分析的模型,学术界目前采用两种评价指标对其进行评价。一个是LAS(Labeled Attachment Score)只有arc的箭头方向以及依赖关系均正确时才算正确,以及UAS(Unlabeled Attachment Score)只要arc的箭头方向正确即可。其他有一定参考价值的评价指标:10.1.3 依存句法分析 评价标准 测试集中找到正确支配词非根结点词占所有非根结点词总数的百分比。依存正确率(DA):有
12、两种定义,一种是测试集中正确根结点的个数与句子个数的百分比。另一种是指测试集中找到正确根结点的句子数所占句子总数的百分比。根正确率(RA):测试集中无标记依存结构完全正确的句子占句子总数的百分比。完全匹配率(CM):概况10.2 成分句法分析10.2.1任务定义10.2.210.2.3评价标准10.2.1 成分句法分析 概况 成分句法分析的研究基于上下文无关文法(上下文无关文法(Context Free Grammer,CFG)。上下文无关文法可以定义为四元组,其中表示终结符的集合(即词的集合),N表示非终结符的集合(即文法标注和词性标记的集合),表示充当句法树根节点的特殊非终结符,而R表示文
13、法规则的集合,其中每条文法规则可以表示为Ni这里的表示由非终结符与终结符组成的一个序列。10.2.1 成分句法分析 概况 成分句法分析的研究基于上下文无关文法(上下文无关文法(Context Free Grammer,CFG)。上下文无关文法可以定义为四元组,其中表示终结符的集合(即词的集合),N表示非终结符的集合(即文法标注和词性标记的集合),表示充当句法树根节点的特殊非终结符,而R表示文法规则的集合,其中每条文法规则可以表示为Ni这里的表示由非终结符与终结符组成的一个序列。基于CFG的成分句法分析树10.2.1 成分句法分析 概况添加添加内容内容 由于人工定义语法规则的困难以及CFG无法处
14、理语法的二义性的问题,研究者们提出将上下文无关文法扩展成为概率上下文无关文法(概率上下文无关文法(Probalibity Context Free Grammer,PCFG),),即为每条文法规则指定概率值。概率上下文无关文法的四元组形式与非概率化的上下文无关文法相同,区别在于概率上下文无关文法中的文法规则必须带有概率值。10.2.1 成分句法分析 概况添加添加内容内容基于PCFG的成分句法分析树10.2.1 成分句法分析 概况添加添加内容内容现代成分句法分析方法编码模型解码模型transformer基于转移的解码方法基于动态规划的解码方法10.2.1 成分句法分析 概况添加添加内容内容01基
15、于转移的解码算法 基于转移系统的句法分析解码算法主要通过预测生成句法树的动作序列来还原出一棵句法树。按照遍历树的顺序,具体还可以分为自底向上(bottomup)的转移系统,自顶向下(topdown)的转移系统和基于中序遍历(inorder)的转移系统:10.2.1 成分句法分析 概况添加添加内容内容01基于转移的解码算法 基于转移系统的句法分析解码算法主要通过预测生成句法树的动作序列来还原出一棵句法树。按照遍历树的顺序,具体还可以分为自底向上(bottomup)的转移系统,自顶向下(topdown)的转移系统和基于中序遍历(inorder)的转移系统:10.2.1 成分句法分析 概况添加添加内
16、容内容 基于动态规划的句法分析模型主要通过递归地预测每个得分最高的成分句法子树,最后回溯还原出最优句法树。这种方法的优点就是可以枚举出搜索空间中的所有句法树,解码效果比较好。但是动态规划算法时间消耗较大,复杂度是句子长度的平方级别的:基于动态规划的解码算法0210.2.1 成分句法分析 概况添加添加内容内容 基于序列到序列(endtoend)的句法分析模型主要思想是将句法树映射为一个唯一对应的序列表示,然后通过序列标注,或者序列生成的方式来预测出这个序列。根据句法树序列化的不同定义方式,模型也有许多不同的变体。括号表达式是最为常见的一种序列化方法,图中展示了句子“John has a dog。
17、”对应的括号表达式:基于序列到序列的解码算法03概况10.2 成分句法分析10.2.1任务定义10.2.210.2.3评价标准10.2.2 成分句法分析 任务定义添加添加内容内容 成分句法分析作为自然语言处理中的一项基础任务,它的目标是在给定一个长度为n的句子的情况下,分析出句子的成分句法树T。例如给定句子“The little boy likes red tomatoes”,它的成分句法树如图所示。对于句法树T,有多种方式来对它进行表示。目前比较常用的是基于跨度(基于跨度(span)的表示)的表示,也就是将句法树表示成组成它的所有短语的集合,每个包含若干个单词的短语为一个跨度。而对于每个短语
展开阅读全文