人工智能Artificial-Intelligence第八章自然语言处理x课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《人工智能Artificial-Intelligence第八章自然语言处理x课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 人工智能 Artificial Intelligence 第八 自然语言 处理 课件
- 资源描述:
-
1、人工智能人工智能Artificial IntelligenceArtificial Intelligence第八章第八章xx xx 中国科学院计算技术研究所自然语言处理自然语言处理Natural Language Processing2019-11-17谢谢你的观看12019-11-17谢谢你的观看2内容提要内容提要8.1 8.1 概述概述8.2 8.2 词法分析词法分析8.3 8.3 句法分析句法分析8.4 8.4 语义分析语义分析8.5 8.5 语用分析语用分析8.6 8.6 语料库语料库8.7 8.7 信息检索信息检索8.8 8.8 机器翻译机器翻译8.9 8.9 自动问答系统自动问答系
2、统8.10 8.10 小结小结概述概述n 自然语言处理是用机器处理人类语言的理论和技术。作为语言信息处理技术的一个高层次的重要研究方向,一直是人工智能领域的核心课题。由于自然语言的多义性、上下文有关性、模糊性、非系统性和环境密切相关性、涉及的知识面广等原因,自然语言处理是困难问题之一。自然语言处理的研究希望机器能够执行人类所期望的某些语言功能,这些功能包括:(1)回答问题:计算机能正确地回答用自然语言输入的有关问题;(2)文摘生成:机器能产生输入文本的摘要;(3)释义:机器能用不同的词语和句型来复述输入的自然语言信息;(4)翻译:机器能把一种语言翻译成另外一种语言。2019-11-17谢谢你的
3、观看3概述概述自然语言自然语言:人类交流的语言,口语、书面语、手语、旗语等人造语言:机器语言,包括C+,BASIC等 世界语到目前为止的人类知识有80%以上使用自然语言文字记载下来的。但将来,可能用计算机语言形式记载的知识将会越来越多。因此说,语言信息处理技术和每年所处理的信息总量已成为衡量一个国家现代化水平的重要标志之一。相比较人工智能其它领域,自然语言理解是难度大,进展小的。至今为止未能达到很高的水平。2019-11-17谢谢你的观看4自然语言处理的自然语言处理的发展发展 自然语言理解的研究大体上经历了三个 时期萌芽时期 发展时期 早期:20世纪60年代以关键词匹配为主流 中期:20世纪7
4、0年代以句法语义分析为主流 近期:20世纪80年代以来走向实用化和工程化大规模真实文本处理时期 比较成功的系统处理都是受限的自然语言子集句法受限:句子结构的复杂性方面受到限制语义受限/领域受限:所表达的事物的数量方面受到限制2019-11-17谢谢你的观看5 20世纪60年代:以关键词匹配为主流 特点:没有真正意义上的语法分析,主要依靠关键词匹配技术来识别输入句子的意义在系统中事先存放了大量包含某些关键词的模式,每个模式与一个或多个解释(响应式)相对应。每当输入一个句子,系统便查找与之匹配的模式,一旦匹配成功,系统就输出相应的解释,不考虑其他成分对句子意义的影响是一种近似匹配技术,输入句子可以
5、不准循语法,但是也容易导致错误自然语言处理的自然语言处理的发展发展2019-11-17谢谢你的观看620世纪70年代:句法语义分析为主流 采用句法-语义分析技术典型例子 LUNAR允许用普通英语和数据库对话的人机接口句法分析句法分析语义解释语义解释数据检索数据检索ATN语法语法词典词典语义规则语义规则数据库数据库自然语言处理的自然语言处理的发展发展2019-11-17谢谢你的观看720世纪80年代以来:实用化和工程化 主要特点是开始走向实用化和工程化。其重要标志之一是有一批商品化的自然语言人机接口系统和机器翻译系统推向了市场。另一方面,人们已经开始对大规模真实文本进行理解 句法语义分析为主的思
6、想来自于规则的方法,而规则不可能把所有的知识表示出来自然语言在数量上浩瀚无际在性质上具有不确定性和模糊性。自然语言处理的自然语言处理的发展发展2019-11-17谢谢你的观看8概述概述n 自然语言的层次划分及对应技术理论理论层次结构层次结构实现技术实现技术模板匹配、基于规则模板匹配、基于规则语音语音 模式匹配模式匹配基于词素、词汇基于词素、词汇词汇词汇词典结构词典结构转换生成、词汇功能语法转换生成、词汇功能语法语法语法 扩 展 转 移 网 络扩 展 转 移 网 络(ATN),CFATN),CF规则规则 格语法、语义基元理论、模型理格语法、语义基元理论、模型理论论语义语义 产生式规则、概念产生式
7、规则、概念相依理论、脚本、框相依理论、脚本、框架、语义网络、逻辑架、语义网络、逻辑 基于记忆的推理、语言行为理论基于记忆的推理、语言行为理论、篇章语法、篇章语法语用语用2019-11-17谢谢你的观看9自然语言处理层次自然语言处理层次2019-11-17谢谢你的观看102019-11-17谢谢你的观看11内容提要内容提要8.1 8.1 概述概述8.2 8.2 词法分析词法分析8.3 8.3 句法分析句法分析8.4 8.4 语义分析语义分析8.5 8.5 语用分析语用分析8.6 8.6 语料库语料库8.7 8.7 信息检索信息检索8.8 8.8 机器翻译机器翻译8.9 8.9 自动问答系统自动问
8、答系统8.10 8.10 小结小结词法分析词法分析词法分析是理解单词的基础,其主要目的是从句子中切分出单词,找出词汇的各个词素,从中获得单词的语言学信息并确定单词的词义 例如unchangeable是由un-change-able构成的,其词义由这三个部分构成。2019-11-17谢谢你的观看12词法分析词法分析语言构成语言词汇语法词熟语句法词素词法构形法构词法词组构造法造句法2019-11-17谢谢你的观看13词法分析词法分析在英语等语言中,因为单词之间是以空格自然分开的,切分一个单词很容易,所以找出句子的一个个词汇就很方便。但是由于英语单词有词性、数、时态、派生、变形等变化,要找出各个词素
9、就复杂的多,需要对词尾或词头进行分析。如importable,它可以是im-port-able或import-able,这是因为im、port、able这三个都是词素。汉语中的每个字就是一个词素,所以要找出各个词素是相当容易的,但要切分出各个词就非常困难,不仅需要构词的知识,还需要解决可能遇到的切分歧义。如“我们研究所有东西”。可以是“我们研究所有东西”,也可以是“我们研究所有东西”。2019-11-17谢谢你的观看142019-11-17谢谢你的观看15内容提要内容提要8.1 8.1 概述概述8.2 8.2 词法分析词法分析8.3 8.3 句法分析句法分析8.4 8.4 语义分析语义分析8.
10、5 8.5 语用分析语用分析8.6 8.6 语料库语料库8.7 8.7 信息检索信息检索8.8 8.8 机器翻译机器翻译8.9 8.9 问答系统问答系统8.10 8.10 小结小结句法分析句法分析 句法分析的主要任务:确定输入句子的结构:识别句子的各个成分及其之间的关系句子结构的规范化:目的是简化后续处理 分析自然语言的方法主要分为两类:基于规则的方法:如短语结构语法和Chomsky语法体系 基于统计的方法2019-11-17谢谢你的观看16短语结构语言短语结构语言 定义句子:一个符号串语言:句子的集合语法:对一个句集一种有限的形式化描述 描述一般语言的方法:识别器:由程序判断读入的符号串是不
11、是一个句子短语结构语法:一种基于产生式的形式化工具,也称为产生式语法2019-11-17谢谢你的观看17短语结构语言短语结构语言定义:短语结构语法定义为:G(T,N,S,P)T是终结符集合,即被定义的语言的所有词 汇(或符号)N是非终结符集合,这些符号用于描述语法 成分,并不出现于句子中。则有:VTN,TN(空集),V是属于该语法的全部符号。S是起始符号,它是N中的一个成员。P是一个产生式规则集。ab(ab,aV+,bV*)2019-11-17谢谢你的观看18短语结构语言短语结构语言 在短语结构语法中,基本运算是把一个符号串重写为另一个符号串,每条语法规则也叫重写规则 一个句子的产生就是从S符
12、号到词汇串的推导过程 如果一个程序能够根据一个短语结构语法来确定一个句子的推导,则它可称为一个句法分析器(parser)。语法G所定义的语言记为L(G):L(G)=W|WT*,S*GW2019-11-17谢谢你的观看19短语结构语言短语结构语言 刻画语言的形式体系的强和弱 递归可枚举语言:如果有一个程序,它能以某种顺序逐个地输出(即枚举)一种语言的句子,这种语言是递归可枚举的 递归语言:如果有一个程序,它在读入一个符号串后能最终确定这个串是或不是某种语言的一个句子,这称该语言是递归 2019-11-17谢谢你的观看20短语结构语言短语结构语言 正则语法:正则语法有两种形式:左线性语法:如 A
13、a|Ba 右线性语法:如 A a|aB可以表示如下的句子:a*b*语法例子:S a|S1|a SS1 b|b S1与有限状态机等价2019-11-17谢谢你的观看21短语结构语言短语结构语言 上下文无关语法:语法规则形式为:A x 即左边为一非终结符,右边没有限制可以表示的句子如:anbn语法例子:S a|S b S该文法应用于程序设计语言中2019-11-17谢谢你的观看22短语结构语言短语结构语言 上下文有关语法:语法规则:规则右边的符号数不能少于左边符号数 右边的符号可以是终止符也可以是非终止符上下文有关语言是递归的可以表示的语言:anbncn语法例子:AB BA2019-11-17谢谢
14、你的观看23短语结构语言短语结构语言 无约束短语结构语法:语法规则是没有限制的:左边可以是任意多个终止符或非终止符 右边可以是任意多个终止符或非终止符该语言是递归可枚举的该语言与图灵机等价语法例子:A B C2019-11-17谢谢你的观看24ChomskyChomsky体系体系无约束语法无约束语法上下文有关语法上下文有关语法上下文无关语法上下文无关语法正则语法正则语法2019-11-17谢谢你的观看25CFGCFG的分析算法的分析算法 用一个短语结构语法对一个句子进行语法分析,意味着寻找一个从起始符到该句子的推导,这个推导一般可以表示为一棵句法树 一般一棵句法树对应的推导不是唯一的,但是如果
15、在推导过程中每次总是重写最左边的非终止符,则称该推导为最左推导。Mary Mary Mary eats Mary eats cheese2019-11-17谢谢你的观看26CFGCFG的分析算法的分析算法 :=:=John|Marry:=:=eats|drinks :=wine|cheeseSENTENCESUBJECTVERBPHRASEVERBOBJECTeatscheeseMary2019-11-17谢谢你的观看27CFGCFG的分析算法的分析算法 句法分析器分为:从推导方向来分:自顶向下:从树顶的根结点开始推导建立句法树,方向是从起始符S到句子 自底向上:从树底部的叶结点(词或词类)规
16、约,建立句法树,方向是从句子到S从算法上分:回溯算法:每次只尝试一种推导,当这种推导失败时便返回以尝试另一种推导 并行算法:同时进行所有的推导2019-11-17谢谢你的观看28CFGCFG的分析算法的分析算法 自顶向下的回溯算法该方法逐个地枚举推导直到找到一个能生成句子的推导一般,对具有左递归的语法,该方法需要增加某些测试以避免陷入死循环对于”Mary eats cheese”的句法和推导为:SNP+VP (1)SNP+VP (1)NP N (2)N+VP (2)VP V (3)N+V+NP (4)VP V+NP (4)N+V+N (2)2019-11-17谢谢你的观看29转移网络转移网络
17、转移网络在自动机理论中用来表示语法。句法分析中的转移网络由结点和带有标记的弧组成,结点表示状态,弧对应于符号,基于该符号,可以实现从一个给定的状态转移到另一个状态。句子:图 16.2(a)SNP+VP 的转移网络 开始状态 中间状态 终止状态 NP VP NP:N NPART+N 和和 NPN 的的转转移移网网络络 开开始始状状态态 中中间间状状态态 终终止止状状态态 ART N 2019-11-17谢谢你的观看30Dog bitesDog bites2019-11-17谢谢你的观看31转移网络转移网络扩充转移网络ATNATN是20世纪70年代由W.Woods提出来的ATN语法属于一种增强型的
18、上下文无关语法,即用上下文无关文法描述句子文法结构,并同时提供有效的方式将各种理解语句所需要的知识加到分析系统中,以增强分析功能,从而使得应用ATN的句法分析程序具有分析上下文有关语言的能力。ATN主要是对转移网络中的弧附加了过程而得到的。当通过一个弧的时候,附加在该弧上的过程就会被执行。这些过程的主要功能是(I)对文法特征进行赋值;(II)检查数(number)或人称(第一、二或三人称)条件是否满足,并据此允许或不允许转移。2019-11-17谢谢你的观看32转移网络转移网络表示句子的框架2019-11-17谢谢你的观看33转移网络表示句子的框架2019-11-17谢谢你的观看34转移网络转
19、移网络表示句子的框架2019-11-17谢谢你的观看35非确定性算法与确定性算法非确定性算法与确定性算法 上面介绍的算法是非确定性的,分析过程中常常要进行回溯。这就降低了算法的效率。实际上,在特定的上下文中,除了某些固有的歧义外,自然语言的句法分析绝大多数都是确定的。1977年MIT的Marcus提出了句法分析的确定性 算法。该算法的最大特点是确保在任何情况下,一旦一个输入句子的部分结构被分析出来,便不再更改,一直保持到最后成为句子最终分析的一部分。2019-11-17谢谢你的观看36非确定性算法与确定性算法非确定性算法与确定性算法Marcus的确定性算法 该句法分析系统具有如下三个特点:(1
20、)由数据驱动(2)已分析出来的部分结构可以成为对后继分析 过程的预期(3)通过“向前看”(look-ahead)来代替回溯特点(1)和(2)反映了自底向上和自顶向下分析相结合的策略。特点(3)则是要通过引入句子中的上下文约束来决定分析规则,保证句法分析器“看准了”以后再操作,从而避免了回溯2019-11-17谢谢你的观看37非确定性算法与确定性算法非确定性算法与确定性算法汉语的特点汉语的词类缺乏形式标注汉语词类跟句法成分之间不存在简单的一一对应关系.汉语的句子的构造原则跟短语的构造原则基本一致汉语的这两个特点的表现形式就是普遍存在的词类兼类现象和句法结构的递归嵌套性。这些必然要导致大量的回溯,
21、增加计算的开销采用确定性分析策略则可以解决这种问题。2019-11-17谢谢你的观看382019-11-17谢谢你的观看39内容提要内容提要8.1 8.1 概述概述8.2 8.2 词法分析词法分析8.3 8.3 句法分析句法分析8.4 8.4 语义分析语义分析8.5 8.5 语用分析语用分析8.6 8.6 语料库语料库8.7 8.7 信息检索信息检索8.8 8.8 机器翻译机器翻译8.9 8.9 问答系统问答系统8.10 8.10 小结小结语义分析语义分析 语义分析的任务:输入句子的句法结构和句子中每个实词的词义推导出能反映该句子意义的某种形式化表示 对语义现象作形式化处理要比句法现象困难得多
22、,主要原因有语义和句法系统的界限很难划清楚语义及其他认知系统的界限也难以划清楚。用于计算机语义处理的计算语义学还远未成熟2019-11-17谢谢你的观看40格文法格文法 格语法是Filmore于1968年提出来的,曾 经对自然语言理解技术的发展产生过较 大的影响,直到现在不少研究仍在使用 格语法。因为人们认识到格关系确实是 描述语言语义(包括和语法的关系)的一种很好的形式,当然在实际应用过程中不 可避免地要有些修改。2019-11-17谢谢你的观看41格文法的特点是允许以动词为中心构造分析结果,尽管文法规则只描述句法,但分析结果产生的结构却相应于语义关系,而非严格的句法关系如句子:Mary h
23、it Bill 的格文法分析结果可以表示为 (hit (Agent Mary)(Dative Bill)在格文法中,格表示的语义方面的关系,反映的是句子中包含的思想、观念等,称为深层格。和短语结构语法相比,格文法对于句子的深层语义有着更好的描述。格文法格文法2019-11-17谢谢你的观看42 如果两个句子的底层的语义关系一致,各名词成分所代表的格关系不会发生相应的变化。例如,被动句“Bill was hit by Mary”与上述主动句具有不同的句法分析树,但格表示完全相同。S S NP VP NP VP Mary V NP Bill V PP hit Bill was hit by Mar
24、y Mary hit Bill Bill was hit by Mary 主动句和被动句的句法分析树 格文法格文法2019-11-17谢谢你的观看43格文法格文法2019-11-17谢谢你的观看442019-11-17谢谢你的观看45内容提要内容提要8.1 8.1 概述概述8.2 8.2 词法分析词法分析8.3 8.3 句法分析句法分析8.4 8.4 语义分析语义分析8.5 8.5 语用分析语用分析8.6 8.6 语料库语料库8.7 8.7 信息检索信息检索8.8 8.8 机器翻译机器翻译8.9 8.9 问答系统问答系统8.10 8.10 小结小结n 语用分析与知识、上下文和推理等因素有关。维
25、诺格拉德(Winograd T)认为语言是一个讲话者和听者之间关于一个共同的世界的一种通信手段。语言是一种社会交际工具,研究语言必须研究其社会功能。维诺格拉德认为语义理论必须在三个平面上描述关系,(1)确定词的意义 (2)确定词组在句法结构中的意义 (3)一个自然语言的句子决不应被孤立地解释。n 一种语义理论必须描述一个句子的意义如何依赖于它的上下文。语用分析语用分析2019-11-17谢谢你的观看46 语义理论必须涉及语言学背景(说话的上下文)和现实社会背景(即同非语言学事实的知识的相互作用),语义理论必须同句法和语言的逻辑方面(演绎推理)相联系。正是基于这些观点,即语法、语义和语用学相互作
展开阅读全文