自然语言自然语言处理课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自然语言自然语言处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 课件
- 资源描述:
-
1、l 课程名称:自然语言处理l 课程性质:专业选修课l 学 时:36l 授课教师:李莉l 授课方式:讲授+讨论l 考试方式:平时成绩40%+考试 60%课程任务:介绍自然语言处理的基本概念、技术和主要应用l 从语言处理的深度层面来看,主要介绍词法、语法、语义等方面的处理技术;l 从语言处理的单元来看,主要介绍词、句子等方面的内容;l 介绍自然语言处理技术的具体应用。通过学习,为开展自然语言处理方向的研究奠定基础。一 自然语言处理概论 对话:甲:听说吴妈打赢了阿Q。乙:不错,阿Q确实被吴妈打败了。甲:这个结果有些出人意料。乙:阿Q是大意失荆州,怪不得别人。l 人用来交际的“语言”具有什么样的性质?
2、l 人用来交际的“语言”跟机器可以理解的语言有什么样的关系?l 人是如何运用“语言”进行交际的?l 人运用“语言”进行交际的“过程”是否可以描述为一个“机械的过程”?l 什么叫做“理解”一种语言?l l 正是对上述问题的探索,形成了计算语言学这一交叉边缘学科。l 计算语言学计算语言学(Computational Linguistics):通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的语言能力的目的。注:NLP=计算语言学l 1.研究对象l 2.研究方法l 3.实际应用1.研究对象“计算语言学”的研究涉及“计算”和“语言”两个方
3、面:l 从“计算”的角度去看待“语言”;l 将“语言”作为某种特殊类型的“计算”对象,来研究适用于这类计算的算法过程。这两个方面共同构成了计算语言学的核心研究内容。1.研究对象从计算的角度来看语言的性质从计算的角度来看语言的性质:l 将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来;传统的语言学研究在表述语言的结构规律时一般采用非形式化的表达形式。1.研究对象从计算的角度来看语言的性质从计算的角度来看语言的性质:l 如:汉语中“把”字句的结构规律,传统的语法学的描述:汉语的“把”字句也叫处置式,表示处置的意义,通常是指主语所表示的人或事物将“把”后宾语所表示的人或事物置于某
4、种状态。l例如:张三把李四赶跑了。“张三”是主语,“李四”是“把”后的宾语,这句话表达的意思可以表述为:张三赶李四,李四跑了。汉语一般的主谓宾句式可以变换成“把”字句,通常也有对应的“被”字句。l例如:“张三赶跑了李四”也可以说成“张三把李四赶跑了”或“李四被张三赶跑了”。1.研究对象从计算的角度来看语言的性质从计算的角度来看语言的性质:l 传统的描述不够精确不够精确,也是非形式化非形式化的:精确性:为什么“吴妈以前很喜欢阿Q的理论”这个主谓宾句式不能变换成相应的“把”字句和“被”字句?形式化:上述对汉语“把”字句规律的说明是以自然语言本身来描述的,没有采用符号化的规则形式来描述。1.研究对象
5、从计算的角度来看语言的性质从计算的角度来看语言的性质:l 如何才能够以精确的、形式化的方式来表述有关自然语言的知识?可以用一定的形式系统来“显性地”、“概括地”表述;也可以用带标记的语料库来“隐性地”、“具体地”以统计数据形式表述。(形式语法理论)和(语料库)将对这两种方式进行介绍。1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法:l 研究如何以机械的、规定好严格操作步骤的程序来处理语言对象 语言对象:包含在一个语言片断(比如词组、句子或篇章)中各级语言单位 处理:包括各级语言单位的识别,结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思
6、(自然语言生成)例如:“温家宝在北京35中听课。”1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法:l 算法(algorithm)指具有以下特点的计算过程:通用性:算法是针对一类问题的。机械性:算法的每一个步骤都是确定的。有限性:算法必须在有限步内结束。离散性:算法的输入数据及输出数据都是离散的符号。1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法:l 在计算机背景下,可以将“算法”定义为用计算机语言编制的一套程序 例:对任意两个自然数A、B,求其最大公约数。1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相
7、应的算法:l 不同类型的自然语言处理算法:从编译理论所发展出来的用来分析程序设计语言的各种分析算法 针对形式语言的分析提出的各种分析算法 在处理大规模语料库过程中发展出来的各种基于统计模型的算法 这些算法技术,为在不同层次上对自然语言进行不同程度的处理,提供了有效的手段和途径。l(词法分析)、(句法分析)将对有关算法技术进行介绍1.研究对象对计算语言学研究内容多层次多角度的认识对计算语言学研究内容多层次多角度的认识:l 在计算语言学的研究中,通常会把“语言”这个大对象分解成一些相对独立的“部分”来“分而治之”。l 在计算语言学这个大方向下,又可以相对地区分出一些子研究领域如:在对自然语言的文本
8、对象进行分析中,包括形态分析、句法分析、篇章分析、文本生成等。在对自然语言的语音对象进行处理中,又可分为语音识别、语音的自动合成技术等。1.研究对象对计算语言学研究内容多层次多角度的认识对计算语言学研究内容多层次多角度的认识:l 一般来说,对大语言成分进行处理,是建立在对小语言成分进行处理的基础之上的。l 针对不同的处理对象,在计算机算法和适用的处理策略上也存在差异,也可以区分出一些子研究领域 如:用于词处理的自动分析算法和用于句处理的分析算法、用于篇章处理的分析算法等1.研究对象需要注意的问题需要注意的问题:(1)计算语言学的研究内容可以有广义和狭义之分。l 狭义的计算语言学:指从计算的角度
9、来看语言,以及以自然语言为对象来研究算法过程。研究目标研究目标是要用计算机来模拟人分析处理自然语言的行为能力。l 广义的计算语言学:还包括以计算机作为工具手段对自然语言进行的所谓“计量研究”,包括语言符号的频度统计;基于统计特征的语言(方言)地理分布研究等等。1.研究对象需要注意的问题需要注意的问题:(2)不同研究者对计算语言学研究内容的认识有角度或侧重点的不同。以“语言”+“计算”的格局来看:l 如果偏重“计算”,对自然语言进行各种类型的信息处理和加工技术这方面的研究,称“自然语言处理”;l 如果偏重“语言”的形式化研究,以数学方法来刻画语言的各种特点,形成表述严密的语言理论体系,通常称为“
10、数理语言学”。只是从不同角度或侧面来体现计算语言学的研究内容。常以“自然语言处理”来指“计算语言学”。1.研究对象需要注意的问题需要注意的问题:(3)人们对计算机以及人类语言能力的认识也在不断调整和发展之中,产生了跟计算语言学有密切关系的术语 包括“机器翻译”,“自然语言理解”,“自然语言处理”,“人类语言技术”(Human Language Technology),等等 不同的称说反映了人们对计算语言学的认识的变化过程。l 1.研究对象l 2.研究方法l 3.实际应用2.研究方法l NLP的研究方法可以区分为规则方法和统计方法两大类。l 什么是规则方法,什么又是统计方法呢?了解NLP的一般研
11、究模式(或研究过程)2.研究方法计算语言学的一般研究模式:2.研究方法计算语言学研究中涉及到五个主要因素五个主要因素:l 自然语言NL(包括语音、词汇、句法、语义、语用、篇章等等)l 研究者H(计算语言学家、程序员、数学家、语言学家等等)l 关于自然语言的知识K(包括有关自然语言的各个方面的知识)l 计算机C(包括软硬件平台)l 自然语言处理程序P(包括算法/以程序设计语言实现的程序);2.研究方法动态地看,可以描述为四个主要阶段四个主要阶段:l S1:研究者对自然语言(NL)的规律进行抽象,以计算机能够处理的形式来表述关于自然语言的规律,得到语言知识K;l S2:H针对特定的语言知识表示形式
12、,研制适合的分析和处理算法;l S3:根据算法编制计算机可执行的自然语言处理程序(P)。程序加上语言知识和计算机硬件系统,构成一个自然语言处理系统(NLPS);l S4:用自然语言处理系统NLPS对自然语言NL0进行分析处理,根据反馈的结果调整原来的设计,改进NLPS。2.研究方法规则方法和统计方法的主要区别在于:l 如何认识K,以及如何表示K?规则方法:以建立形式化知识系统的方式来表述K;统计方法:搜集实际的语言材料形成语料库,将语料库本身视作K,这样的K是统计意义上的知识。2.研究方法规则方法和统计方法的主要区别在于:l 如何得到K?规则方法:通常采用所谓内省方式来检验、调整、改进K,使得
13、K在NLPS中能有更出色的表现;统计方法:通常通过构造统计模型,由计算机对语料库中的语言现象进行统计,得到统计意义上的K。2.研究方法规则方法和统计方法的主要区别在于:l 如何使用K来构造NLPS?规则方法:自20世纪70年代以来发展出许多比较成熟的算法,包括Tomita算法、GLR算法方法等;统计方法:20世纪80年代中后期,发展出基于HMM的自然语言处理算法,如Viterbi算法、基于转换的错误驱动的NL知识学习方法等。K与P紧密相连的,两种方法下构造的P不同。2.研究方法从不同策略的角度来看待计算语言学研究:l 如:NL是非常复杂的处理对象,有时需要对NL进行简化处理来降低处理的难度,得
14、到一个受限的自然语言对象NL,即受限自然语言的研究。如:NL:天真好-法律领域的自然语言 NLl 1.研究对象l 2.研究方法l 3.实际应用3.实际应用来自实际应用的需求是来自实际应用的需求是NLP前进发展的动力:l 20世纪40年代,计算机问世,用计算机将一种语言自动翻译成另外一种语言。1954年,美国Georgetown大学与IBM公司合作,在IBM 701型计算机上进行了第一次机器翻译试验,将俄语翻译成英语。这是世界上首次将计算机应用到非数值计算的信息处理领域。3.实际应用来自实际应用的需求是来自实际应用的需求是计算语言学前进发展的主要动力:l 1966年11月,ALPAC提交了一份关
15、于机器翻译的咨询报告,称机器翻译的目标是不现实的,在可预见的将来没有成功的希望。此后机器翻译的研究跌到低谷。反思机器翻译失败的原因,引发对自然语言本身的关注,70年代先后提出了一些有关自然语言知识表示和处理的理论和方法。3.实际应用来自实际应用的需求是来自实际应用的需求是计算语言学前进发展的主要动力:l 从80年代开始,个人计算机系统(PC)迅速普及,使得信息处理在人们的社会生活中的地位日益重要。机器翻译软件、自然语言人机接口软件等陆续从实验室走向市场。计算语言学的应用开始进入社会生活。3.实际应用来自实际应用的需求是来自实际应用的需求是计算语言学前进发展的主要动力:l 20世纪90年代后,网
16、络技术和Internet在全球范围内飞速发展,应用领域也随着全球网络发展而拓展,出现在线机器翻译、跨语言的信息检索、搜索引擎、多语通信系统等。自然语言处理系统的开发者日渐重视用户使用,机助人译系统、人助机译系统、计算机辅助写作系统等工具应运而生;随着无线通信网络技术的发展,面向小型移动计算设备(如手机)的自然语言语音接口(包括语音输入、语音识别、口语翻译等)技术也受到注目。3.实际应用本课程将对NLP主要的应用领域介绍:l信息检索l机器翻译l文本处理ll 1.研究对象l 2.研究方法l 3.实际应用课程的主要内容:lNLP的语言学基础l从计算的角度看语言:语言知识的形式化表示语料库l以语言为对
17、象的计算:词法分析句法分析l应用:机器翻译信息检索二 自然语言处理的语言学基础为什么要学习语言学?l自然语言处理:使用计算机对自然语言进行处理l语言是什么?有什么规律?l语言学:专门研究人类语言的学科 l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字1.语言学概述l语言学语言学专门研究人类语言的学科。l语言学的分类:语言学的分类:从研究对象上分:l个别语言学:研究某一种语言l普通语言学:从理论上探讨语言的共同特点和一般规律1.语言学概述语言学的分类:语言学的分类:从研究的侧重点上分:l理论语言学:研究语言的一般理论l应用语言学:研究语言在各个领域中的实际应用,包括
18、语言教学、机器翻译、信息传输与处理等等1.语言学概述语言学研究阶段:语言学研究阶段:(1)语文学阶段:研究古文献和书面语(2)历史比较语言学阶段:19世纪初,西方语言学者开始运用历史比较法研究语言本身,形成历史比较语言学历史比较语言学为普通语言学的研究奠定了基础,在19世纪中期,从理论上研究人类语言一般规律的普通语言学诞生,代表人物是德国的洪堡特和瑞士的索绪尔。1.语言学概述语言学研究阶段:语言学研究阶段:(3)结构主义语言学阶段:认为语言实质上是一种符号体系,语言学应该研究这种体系的内部结构。结构主义语言学推崇直接成分分析,对中国的语言研究产生过巨大的影响。1.语言学概述语言学研究阶段:语言
19、学研究阶段:(4)形式语言学阶段:20世纪50年代中后期,乔姆斯基提出了转换生成语法,认为语言描写和分析的目的在于建立一种理论,研究人的语言生成能力,即怎样用有限的成分和规则生成无限的句子。乔氏的目标是一个能产生所有句子的语法系统,主要包括生成和转换两方面。生成规则又包括一套短语结构规则和词汇插入规则。1.语言学概述语言学研究阶段:语言学研究阶段:(4)形式语言学阶段:如:S-NP+VP,NP-D+N,VP-V+NP句子 The boy post the letter 可以由上述规则生成。在转换和生成句子的过程中都采用了形式化的符号表达称“形式语言学”,适合计算机的应用。SNPVPDNVNPD
20、NThe boy post the letter1.语言学概述语言学研究阶段:语言学研究阶段:(5)交叉语言学阶段:随着当代社会的飞跃发展,语言学和社会科学与自然科学之间相互渗透,形成一些交叉性、边缘性学科。例如心理语言学、数理语言学、计算语言学、模糊语言学、应用语言学等。1.语言学概述语言是什么?(1)区分“语言”和“言语”l言语:有两个含义(讲话/写作,是一种行为动作;所讲的话,是行为动作的结果)-是个人讲话/写作的行为和结果。l语言:是用以说(写)和存在于所说(所写)中的音义结合的词汇系统和语法系统。1.语言学概述语言是什么?l区分“语言”和“言语”,明确了语言研究的不同领域:句子以下的
21、音素、音位、音节、义素、义位、语素、词、词组等静态单位,属于语言范畴;句子以上的语流、句群、篇章等动态单位,属于言语范畴。1.语言学概述(2)语言的内部结构:语言是一种符号系统l语言是一种音义结合的符号,其形式是语音,其内容即是语义,形式和内容相统一。l语言是一个符号系统:符号之间不是孤立的,是紧密联系的。因此,语言是由语音、词汇、语义、语法四大因素组成的系统。1.语言学概述言语:在一定的语境中对语言系统有目的的言语:在一定的语境中对语言系统有目的的运用过程及结果运用过程及结果(1)语用分析:研究特定情景中的特定话语,特别是研究特定语境中如何理解和运用语言。他对我说“走过来”and 他命令我“
22、走过来”(2)篇章分析:研究句子以上的言语。篇章的两个特点是粘连性和连贯性1.语言学概述语言的发展:语言的发展:(1)语言的分化:一种语言逐渐分化为几种语言或方言。方言和亲属语言是语言分化的结果。l方言:方言:某种语言的地方变体。l亲属语言:亲属语言:同一共同语分化而成的独立语言。世界语言的几大语系:汉藏语系、印欧语系、高加索语系等。1.语言学概述语言的发展:语言的发展:(2)语言的整化:几种语言或几种语言因素逐渐接近和统一起来。随社会的统一而整化。l 民族共同语:在一个民族或部族内共同使用的语言。l 民族交际语:在多民族国家各民族间共同使用的语言。l 国际交际语:不同国家间由于交际的需要,选
23、择一种或数种语言作为共同使用交际工具、并在国际会议上确定的语言。(3)语言的混合和融合l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字2.语音l语言是音义结合的词汇系统和语法系统,词汇意义和语法意义都是靠语音来表达。l语音的物理特性:语音的物理特性:具有音高、音强、音长、音质四个要素(1)音高:声音的高低,由发音体振动的频率决定。(2)音强:声音的强弱,由发音体振动的振幅决定。(3)音长:声音的长短,由发音体振动的时间决定(4)音质:指声音的个性或特色,取决于声波的形式。2.语音l大多数声音是由若干个单纯音组成的复合音,其中频率最小、振幅最大的单纯音叫基音,其余为
24、陪音。l当基音的频率和陪音的频率之间存在整数倍的比例关系时就形成周期性重复的复合波,这种波形的音为乐音;否则为噪音。2.语音语言的声音:结构成分有限、相对稳定的静语言的声音:结构成分有限、相对稳定的静态系统态系统l语音系统可以切分为音素符号、音位、音节等子系统。语音识别、语音的自动合成l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字3.词汇词汇词汇语言的基础建筑材料:l词汇:是词和固定词语(词的等价物)的总和。注:词汇是集合概念,不能用来指单个词或单个词组;单个的词或固定词语是词汇集合的成员。l词汇学:研究词的性质、构成、词之间的关系等3.词汇词汇:可以分为语言的
25、词汇和言语的词汇:l语言的词汇,指一种语言中全部词和固定词语的总和。如:汉语词汇就是指汉语中全部词和固定词语的总和。l言语的词汇是指个人运用语言的词汇。如:鲁迅的词汇,网络词汇l 1.语言学概述l 2.语音l 3.词汇 3.1 语言的词汇 3.2 言语的词汇l 4.语法l 5.语义l 6.文字3.词汇语言的词汇l语言的词汇:一种语言中全部词和固定词语的总和。l语言词汇的基本属性是充当语言的建筑材料,各种词汇单位必须在语言的结构规律语法规律支配下,有目的地组织排列在一起。3.词汇语言的词汇语言词汇的特点语言词汇的特点:词汇的系统性:指词汇内部也是有规律的词汇的绝对任意性和相对理据性:词的音、义结
展开阅读全文