书签 分享 收藏 举报 版权申诉 / 275
上传文档赚钱

类型自然语言自然语言处理课件.ppt

  • 上传人(卖家):晟晟文业
  • 文档编号:5174461
  • 上传时间:2023-02-16
  • 格式:PPT
  • 页数:275
  • 大小:3.92MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《自然语言自然语言处理课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    自然语言 处理 课件
    资源描述:

    1、l 课程名称:自然语言处理l 课程性质:专业选修课l 学 时:36l 授课教师:李莉l 授课方式:讲授+讨论l 考试方式:平时成绩40%+考试 60%课程任务:介绍自然语言处理的基本概念、技术和主要应用l 从语言处理的深度层面来看,主要介绍词法、语法、语义等方面的处理技术;l 从语言处理的单元来看,主要介绍词、句子等方面的内容;l 介绍自然语言处理技术的具体应用。通过学习,为开展自然语言处理方向的研究奠定基础。一 自然语言处理概论 对话:甲:听说吴妈打赢了阿Q。乙:不错,阿Q确实被吴妈打败了。甲:这个结果有些出人意料。乙:阿Q是大意失荆州,怪不得别人。l 人用来交际的“语言”具有什么样的性质?

    2、l 人用来交际的“语言”跟机器可以理解的语言有什么样的关系?l 人是如何运用“语言”进行交际的?l 人运用“语言”进行交际的“过程”是否可以描述为一个“机械的过程”?l 什么叫做“理解”一种语言?l l 正是对上述问题的探索,形成了计算语言学这一交叉边缘学科。l 计算语言学计算语言学(Computational Linguistics):通过建立形式化的数学模型,来分析、处理自然语言,并在计算机上用程序来实现分析和处理的过程,从而达到以机器来模拟人的语言能力的目的。注:NLP=计算语言学l 1.研究对象l 2.研究方法l 3.实际应用1.研究对象“计算语言学”的研究涉及“计算”和“语言”两个方

    3、面:l 从“计算”的角度去看待“语言”;l 将“语言”作为某种特殊类型的“计算”对象,来研究适用于这类计算的算法过程。这两个方面共同构成了计算语言学的核心研究内容。1.研究对象从计算的角度来看语言的性质从计算的角度来看语言的性质:l 将人们对语言的结构规律的认识以精确的、形式化的、可计算的方式呈现出来;传统的语言学研究在表述语言的结构规律时一般采用非形式化的表达形式。1.研究对象从计算的角度来看语言的性质从计算的角度来看语言的性质:l 如:汉语中“把”字句的结构规律,传统的语法学的描述:汉语的“把”字句也叫处置式,表示处置的意义,通常是指主语所表示的人或事物将“把”后宾语所表示的人或事物置于某

    4、种状态。l例如:张三把李四赶跑了。“张三”是主语,“李四”是“把”后的宾语,这句话表达的意思可以表述为:张三赶李四,李四跑了。汉语一般的主谓宾句式可以变换成“把”字句,通常也有对应的“被”字句。l例如:“张三赶跑了李四”也可以说成“张三把李四赶跑了”或“李四被张三赶跑了”。1.研究对象从计算的角度来看语言的性质从计算的角度来看语言的性质:l 传统的描述不够精确不够精确,也是非形式化非形式化的:精确性:为什么“吴妈以前很喜欢阿Q的理论”这个主谓宾句式不能变换成相应的“把”字句和“被”字句?形式化:上述对汉语“把”字句规律的说明是以自然语言本身来描述的,没有采用符号化的规则形式来描述。1.研究对象

    5、从计算的角度来看语言的性质从计算的角度来看语言的性质:l 如何才能够以精确的、形式化的方式来表述有关自然语言的知识?可以用一定的形式系统来“显性地”、“概括地”表述;也可以用带标记的语料库来“隐性地”、“具体地”以统计数据形式表述。(形式语法理论)和(语料库)将对这两种方式进行介绍。1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法:l 研究如何以机械的、规定好严格操作步骤的程序来处理语言对象 语言对象:包含在一个语言片断(比如词组、句子或篇章)中各级语言单位 处理:包括各级语言单位的识别,结构和意义的分析(自然语言理解),以及如何生成一个语言片断来表达确定的意思

    6、(自然语言生成)例如:“温家宝在北京35中听课。”1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法:l 算法(algorithm)指具有以下特点的计算过程:通用性:算法是针对一类问题的。机械性:算法的每一个步骤都是确定的。有限性:算法必须在有限步内结束。离散性:算法的输入数据及输出数据都是离散的符号。1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相应的算法:l 在计算机背景下,可以将“算法”定义为用计算机语言编制的一套程序 例:对任意两个自然数A、B,求其最大公约数。1.研究对象将语言作为计算对象来研究相应的算法将语言作为计算对象来研究相

    7、应的算法:l 不同类型的自然语言处理算法:从编译理论所发展出来的用来分析程序设计语言的各种分析算法 针对形式语言的分析提出的各种分析算法 在处理大规模语料库过程中发展出来的各种基于统计模型的算法 这些算法技术,为在不同层次上对自然语言进行不同程度的处理,提供了有效的手段和途径。l(词法分析)、(句法分析)将对有关算法技术进行介绍1.研究对象对计算语言学研究内容多层次多角度的认识对计算语言学研究内容多层次多角度的认识:l 在计算语言学的研究中,通常会把“语言”这个大对象分解成一些相对独立的“部分”来“分而治之”。l 在计算语言学这个大方向下,又可以相对地区分出一些子研究领域如:在对自然语言的文本

    8、对象进行分析中,包括形态分析、句法分析、篇章分析、文本生成等。在对自然语言的语音对象进行处理中,又可分为语音识别、语音的自动合成技术等。1.研究对象对计算语言学研究内容多层次多角度的认识对计算语言学研究内容多层次多角度的认识:l 一般来说,对大语言成分进行处理,是建立在对小语言成分进行处理的基础之上的。l 针对不同的处理对象,在计算机算法和适用的处理策略上也存在差异,也可以区分出一些子研究领域 如:用于词处理的自动分析算法和用于句处理的分析算法、用于篇章处理的分析算法等1.研究对象需要注意的问题需要注意的问题:(1)计算语言学的研究内容可以有广义和狭义之分。l 狭义的计算语言学:指从计算的角度

    9、来看语言,以及以自然语言为对象来研究算法过程。研究目标研究目标是要用计算机来模拟人分析处理自然语言的行为能力。l 广义的计算语言学:还包括以计算机作为工具手段对自然语言进行的所谓“计量研究”,包括语言符号的频度统计;基于统计特征的语言(方言)地理分布研究等等。1.研究对象需要注意的问题需要注意的问题:(2)不同研究者对计算语言学研究内容的认识有角度或侧重点的不同。以“语言”+“计算”的格局来看:l 如果偏重“计算”,对自然语言进行各种类型的信息处理和加工技术这方面的研究,称“自然语言处理”;l 如果偏重“语言”的形式化研究,以数学方法来刻画语言的各种特点,形成表述严密的语言理论体系,通常称为“

    10、数理语言学”。只是从不同角度或侧面来体现计算语言学的研究内容。常以“自然语言处理”来指“计算语言学”。1.研究对象需要注意的问题需要注意的问题:(3)人们对计算机以及人类语言能力的认识也在不断调整和发展之中,产生了跟计算语言学有密切关系的术语 包括“机器翻译”,“自然语言理解”,“自然语言处理”,“人类语言技术”(Human Language Technology),等等 不同的称说反映了人们对计算语言学的认识的变化过程。l 1.研究对象l 2.研究方法l 3.实际应用2.研究方法l NLP的研究方法可以区分为规则方法和统计方法两大类。l 什么是规则方法,什么又是统计方法呢?了解NLP的一般研

    11、究模式(或研究过程)2.研究方法计算语言学的一般研究模式:2.研究方法计算语言学研究中涉及到五个主要因素五个主要因素:l 自然语言NL(包括语音、词汇、句法、语义、语用、篇章等等)l 研究者H(计算语言学家、程序员、数学家、语言学家等等)l 关于自然语言的知识K(包括有关自然语言的各个方面的知识)l 计算机C(包括软硬件平台)l 自然语言处理程序P(包括算法/以程序设计语言实现的程序);2.研究方法动态地看,可以描述为四个主要阶段四个主要阶段:l S1:研究者对自然语言(NL)的规律进行抽象,以计算机能够处理的形式来表述关于自然语言的规律,得到语言知识K;l S2:H针对特定的语言知识表示形式

    12、,研制适合的分析和处理算法;l S3:根据算法编制计算机可执行的自然语言处理程序(P)。程序加上语言知识和计算机硬件系统,构成一个自然语言处理系统(NLPS);l S4:用自然语言处理系统NLPS对自然语言NL0进行分析处理,根据反馈的结果调整原来的设计,改进NLPS。2.研究方法规则方法和统计方法的主要区别在于:l 如何认识K,以及如何表示K?规则方法:以建立形式化知识系统的方式来表述K;统计方法:搜集实际的语言材料形成语料库,将语料库本身视作K,这样的K是统计意义上的知识。2.研究方法规则方法和统计方法的主要区别在于:l 如何得到K?规则方法:通常采用所谓内省方式来检验、调整、改进K,使得

    13、K在NLPS中能有更出色的表现;统计方法:通常通过构造统计模型,由计算机对语料库中的语言现象进行统计,得到统计意义上的K。2.研究方法规则方法和统计方法的主要区别在于:l 如何使用K来构造NLPS?规则方法:自20世纪70年代以来发展出许多比较成熟的算法,包括Tomita算法、GLR算法方法等;统计方法:20世纪80年代中后期,发展出基于HMM的自然语言处理算法,如Viterbi算法、基于转换的错误驱动的NL知识学习方法等。K与P紧密相连的,两种方法下构造的P不同。2.研究方法从不同策略的角度来看待计算语言学研究:l 如:NL是非常复杂的处理对象,有时需要对NL进行简化处理来降低处理的难度,得

    14、到一个受限的自然语言对象NL,即受限自然语言的研究。如:NL:天真好-法律领域的自然语言 NLl 1.研究对象l 2.研究方法l 3.实际应用3.实际应用来自实际应用的需求是来自实际应用的需求是NLP前进发展的动力:l 20世纪40年代,计算机问世,用计算机将一种语言自动翻译成另外一种语言。1954年,美国Georgetown大学与IBM公司合作,在IBM 701型计算机上进行了第一次机器翻译试验,将俄语翻译成英语。这是世界上首次将计算机应用到非数值计算的信息处理领域。3.实际应用来自实际应用的需求是来自实际应用的需求是计算语言学前进发展的主要动力:l 1966年11月,ALPAC提交了一份关

    15、于机器翻译的咨询报告,称机器翻译的目标是不现实的,在可预见的将来没有成功的希望。此后机器翻译的研究跌到低谷。反思机器翻译失败的原因,引发对自然语言本身的关注,70年代先后提出了一些有关自然语言知识表示和处理的理论和方法。3.实际应用来自实际应用的需求是来自实际应用的需求是计算语言学前进发展的主要动力:l 从80年代开始,个人计算机系统(PC)迅速普及,使得信息处理在人们的社会生活中的地位日益重要。机器翻译软件、自然语言人机接口软件等陆续从实验室走向市场。计算语言学的应用开始进入社会生活。3.实际应用来自实际应用的需求是来自实际应用的需求是计算语言学前进发展的主要动力:l 20世纪90年代后,网

    16、络技术和Internet在全球范围内飞速发展,应用领域也随着全球网络发展而拓展,出现在线机器翻译、跨语言的信息检索、搜索引擎、多语通信系统等。自然语言处理系统的开发者日渐重视用户使用,机助人译系统、人助机译系统、计算机辅助写作系统等工具应运而生;随着无线通信网络技术的发展,面向小型移动计算设备(如手机)的自然语言语音接口(包括语音输入、语音识别、口语翻译等)技术也受到注目。3.实际应用本课程将对NLP主要的应用领域介绍:l信息检索l机器翻译l文本处理ll 1.研究对象l 2.研究方法l 3.实际应用课程的主要内容:lNLP的语言学基础l从计算的角度看语言:语言知识的形式化表示语料库l以语言为对

    17、象的计算:词法分析句法分析l应用:机器翻译信息检索二 自然语言处理的语言学基础为什么要学习语言学?l自然语言处理:使用计算机对自然语言进行处理l语言是什么?有什么规律?l语言学:专门研究人类语言的学科 l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字1.语言学概述l语言学语言学专门研究人类语言的学科。l语言学的分类:语言学的分类:从研究对象上分:l个别语言学:研究某一种语言l普通语言学:从理论上探讨语言的共同特点和一般规律1.语言学概述语言学的分类:语言学的分类:从研究的侧重点上分:l理论语言学:研究语言的一般理论l应用语言学:研究语言在各个领域中的实际应用,包括

    18、语言教学、机器翻译、信息传输与处理等等1.语言学概述语言学研究阶段:语言学研究阶段:(1)语文学阶段:研究古文献和书面语(2)历史比较语言学阶段:19世纪初,西方语言学者开始运用历史比较法研究语言本身,形成历史比较语言学历史比较语言学为普通语言学的研究奠定了基础,在19世纪中期,从理论上研究人类语言一般规律的普通语言学诞生,代表人物是德国的洪堡特和瑞士的索绪尔。1.语言学概述语言学研究阶段:语言学研究阶段:(3)结构主义语言学阶段:认为语言实质上是一种符号体系,语言学应该研究这种体系的内部结构。结构主义语言学推崇直接成分分析,对中国的语言研究产生过巨大的影响。1.语言学概述语言学研究阶段:语言

    19、学研究阶段:(4)形式语言学阶段:20世纪50年代中后期,乔姆斯基提出了转换生成语法,认为语言描写和分析的目的在于建立一种理论,研究人的语言生成能力,即怎样用有限的成分和规则生成无限的句子。乔氏的目标是一个能产生所有句子的语法系统,主要包括生成和转换两方面。生成规则又包括一套短语结构规则和词汇插入规则。1.语言学概述语言学研究阶段:语言学研究阶段:(4)形式语言学阶段:如:S-NP+VP,NP-D+N,VP-V+NP句子 The boy post the letter 可以由上述规则生成。在转换和生成句子的过程中都采用了形式化的符号表达称“形式语言学”,适合计算机的应用。SNPVPDNVNPD

    20、NThe boy post the letter1.语言学概述语言学研究阶段:语言学研究阶段:(5)交叉语言学阶段:随着当代社会的飞跃发展,语言学和社会科学与自然科学之间相互渗透,形成一些交叉性、边缘性学科。例如心理语言学、数理语言学、计算语言学、模糊语言学、应用语言学等。1.语言学概述语言是什么?(1)区分“语言”和“言语”l言语:有两个含义(讲话/写作,是一种行为动作;所讲的话,是行为动作的结果)-是个人讲话/写作的行为和结果。l语言:是用以说(写)和存在于所说(所写)中的音义结合的词汇系统和语法系统。1.语言学概述语言是什么?l区分“语言”和“言语”,明确了语言研究的不同领域:句子以下的

    21、音素、音位、音节、义素、义位、语素、词、词组等静态单位,属于语言范畴;句子以上的语流、句群、篇章等动态单位,属于言语范畴。1.语言学概述(2)语言的内部结构:语言是一种符号系统l语言是一种音义结合的符号,其形式是语音,其内容即是语义,形式和内容相统一。l语言是一个符号系统:符号之间不是孤立的,是紧密联系的。因此,语言是由语音、词汇、语义、语法四大因素组成的系统。1.语言学概述言语:在一定的语境中对语言系统有目的的言语:在一定的语境中对语言系统有目的的运用过程及结果运用过程及结果(1)语用分析:研究特定情景中的特定话语,特别是研究特定语境中如何理解和运用语言。他对我说“走过来”and 他命令我“

    22、走过来”(2)篇章分析:研究句子以上的言语。篇章的两个特点是粘连性和连贯性1.语言学概述语言的发展:语言的发展:(1)语言的分化:一种语言逐渐分化为几种语言或方言。方言和亲属语言是语言分化的结果。l方言:方言:某种语言的地方变体。l亲属语言:亲属语言:同一共同语分化而成的独立语言。世界语言的几大语系:汉藏语系、印欧语系、高加索语系等。1.语言学概述语言的发展:语言的发展:(2)语言的整化:几种语言或几种语言因素逐渐接近和统一起来。随社会的统一而整化。l 民族共同语:在一个民族或部族内共同使用的语言。l 民族交际语:在多民族国家各民族间共同使用的语言。l 国际交际语:不同国家间由于交际的需要,选

    23、择一种或数种语言作为共同使用交际工具、并在国际会议上确定的语言。(3)语言的混合和融合l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字2.语音l语言是音义结合的词汇系统和语法系统,词汇意义和语法意义都是靠语音来表达。l语音的物理特性:语音的物理特性:具有音高、音强、音长、音质四个要素(1)音高:声音的高低,由发音体振动的频率决定。(2)音强:声音的强弱,由发音体振动的振幅决定。(3)音长:声音的长短,由发音体振动的时间决定(4)音质:指声音的个性或特色,取决于声波的形式。2.语音l大多数声音是由若干个单纯音组成的复合音,其中频率最小、振幅最大的单纯音叫基音,其余为

    24、陪音。l当基音的频率和陪音的频率之间存在整数倍的比例关系时就形成周期性重复的复合波,这种波形的音为乐音;否则为噪音。2.语音语言的声音:结构成分有限、相对稳定的静语言的声音:结构成分有限、相对稳定的静态系统态系统l语音系统可以切分为音素符号、音位、音节等子系统。语音识别、语音的自动合成l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字3.词汇词汇词汇语言的基础建筑材料:l词汇:是词和固定词语(词的等价物)的总和。注:词汇是集合概念,不能用来指单个词或单个词组;单个的词或固定词语是词汇集合的成员。l词汇学:研究词的性质、构成、词之间的关系等3.词汇词汇:可以分为语言的

    25、词汇和言语的词汇:l语言的词汇,指一种语言中全部词和固定词语的总和。如:汉语词汇就是指汉语中全部词和固定词语的总和。l言语的词汇是指个人运用语言的词汇。如:鲁迅的词汇,网络词汇l 1.语言学概述l 2.语音l 3.词汇 3.1 语言的词汇 3.2 言语的词汇l 4.语法l 5.语义l 6.文字3.词汇语言的词汇l语言的词汇:一种语言中全部词和固定词语的总和。l语言词汇的基本属性是充当语言的建筑材料,各种词汇单位必须在语言的结构规律语法规律支配下,有目的地组织排列在一起。3.词汇语言的词汇语言词汇的特点语言词汇的特点:词汇的系统性:指词汇内部也是有规律的词汇的绝对任意性和相对理据性:词的音、义结

    26、合是任意的。“天”具体语言中语素与语素、词与词的组合是有理可据的。“雨衣”词汇的普遍性与民族性普遍性:词汇标记概念,只要客观事实存在某种概念,就一定有相应的词来表达它。“天”民族性:不同民族反映相同概念的词语不同。“狗”词汇的变化性与稳定性变化性:词汇随社会生活的发展变化而变化。“红卫兵”稳定性:词汇的变化受到词汇系统的限制。3.词汇语言的词汇词:词:l 定义:词是语言中可以独立运用的最小音义结合单位。l 词是音义结合单位,又受语法规律支配,每个词都有一定的语音形式、语义内容和语法属性。“玫瑰”语音:mei kuei语义:蔷薇,蔷薇属的一种植物或花,植物茎通常有皮刺,叶互生,奇数羽状复叶。语法

    27、:名词,可作主语、宾语、定语。3.词汇语言的词汇词的功能:词的功能:l指称功能(表示客观事物、现象、关系概念的符号)l组合功能(指词的语法功能,是句法结构的基本单位,可以根据自身的语法属性和语法功能组成短语和句子)。词的结构词的结构/构成:构成:l 词的构成成分语素:是语言中不能独立运用的最小的音义结合单位如:“农民”中的“农”和“民”,“蜘蛛”l 词的结构类型根据词的构成情况,分为单纯词、复合词l单纯词:由一个语素构成的词。如“天”、“看”、“好”、“蜘蛛”、“饕餮”l合成词:由两个或两个以上的语素构成的词。如“农民”、“经济”3.词汇语言的词汇词的构成方法词的构成方法构词法:构词法:l 语

    28、音构词:指模拟自然的声音构成词,如“蝈蝈”l 语义构词:由词义的比喻、借代等方式产生新词,或者是由于词义的联想而产生的如“杜鹃(鸟名)”联想到“杜鹃(花名)”l 语法构词:用语法手段来构成新词3.词汇语言的词汇词的构成方法词的构成方法构词法:构词法:l 语法构词:用语法手段来构成新词 复合法:两个词根语素义以句法关系为手段组合成词l 主谓式,如“日食”、“earthquake”。l 偏正式,如“火车”、“boyfriend”。l 支配式,如“司机”、“pickpocket”。l 并列式,如“开关”、“downfall”派生法:在词根上附着词缀构成新词:l 前缀词根,如“老虎”、“dislike

    29、”l 词根后缀,如“木头”、“friendship”l 中缀放在词中,如“古里古怪”。l 几种词缀同时出现(多重派生词),如“超导电性”、“un-friend-ly”3.词汇语言的词汇词的构成方法词的构成方法构词法:构词法:l 语法构词:用语法手段来构成新词变性转化:语素的结构不变、词类功能发生变化,形成另一类词,如“锁(名词/动词)”。变形转化:把原本合成词中的不成词语素变为成词语素,形成新的词。l 逆序成词:把原来只有合成词形式没有单纯词形式的词,截取其中的一个语素再形成单纯词,如“beggar(名词:乞丐)”l 缩略成词:指经过缩略已经凝固为典型的单纯词,如“APEC(亚太经合组织)”3

    30、.词汇语言的词汇固定词组固定词组:l 定义:是指构成成分和结构关系固定,具有完整意义的词语,也叫固定短语。l 固定词语有两种类型:专有名词:即用各种复杂词语的形式来表示事物的名称。如APEC,托福熟语:指人们常用的定型化了的词语,包括成语、惯用语、歇后语、俗语、谚语、格言。“领头羊”3.词汇语言的词汇固定词组的固定词组的特点特点:l 结构的定型性:指固定词语是一种特定的组合形式,不能改变其结构形式。不能颠倒原有成分:“颠三倒四”“颠四倒三”。不能替换原有成分:“拍案叫绝”“拍桌叫绝”。不能插入或删减成分:“非亲非故”“非亲故”。l 意义的完整性:指固定词语的意义并不是构成成分意义简单相加,而是

    31、经过约定俗成,具有整体性的意义。“泼冷水”比喻“打击人的热情”l 1.语言学概述l 2.语音l 3.词汇 3.1 语言的词汇 3.2 言语的词汇l 4.语法l 5.语义l 6.文字3.词汇言语的词汇言语的词汇言语的词汇l 言语的词汇:指个人运用语言的词汇。l 最具代表性的言语词汇:名家名著的词汇。如:鲁迅的词汇文言词语;绍兴方言词;口语词;词汇凝练3.词汇言语的词汇言语的词汇言语的词汇l 言语的词汇:指个人运用语言的词汇。l 网络言语:网络词汇:冲浪、斑竹、版聚、网购、菜鸟缩略语:BTW,MM,886,555表情符号:,8-),:-o3.词汇言语的词汇词汇的发展变化词汇的发展变化l 新词产生:

    32、造词:利用构词法和原有语素构造新词,如“石油”、“管家”旧词新用:如“经国济世经济”借词:把外语词的音和义全部照搬,如“坦克”、“香槟”l 旧词消失:社会的发展,旧事物旧现象的消失,旧生活方式的改变,导致旧词的消失。如“太尉”l 词语替换:事物名称的改变,如“水门汀水泥”,“六弦琴 吉他”l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义l 6.文字4.语法l 语法:语法:是音义结合的各结构单位之间的组织规则的集合。l 通常认为,语法系统包括构词法、词法(主要指构形法)和句法。构词法:指词的内部构造规律和构成新词的规律。词法:研究词的语法范畴和语法形式。句法:研究词组和句子的模

    33、式以及它们的构造与关系。4.语法语法的特点语法的特点:l 抽象性:语法的抽象是对词或句之间的关系进行抽象,抽象出来的是语法意义。如“头发”:N,作主语或宾语语法抽象的结果常是一些结构、模式、类型。“N+VP -S”l 递归性:指语法结构的某个单位可以不断地被一个同功能的结构去替换与扩展。如:唱歌唱一支歌唱一支五月天的歌唱一支五月天新出的歌正因为递归性,才能以有限的规则生成无限多的句子。4.语法语法的特点语法的特点:l 稳定性:语法是语言结构要素中最为稳定的一个要素。每种语言都有自己基本稳定的语法格式。如:“南有佳鱼”、“我有佳宾”l 民族性和地方性:汉语主要采用“主谓宾”的结构形式,藏语则采用

    34、“主宾谓”的形式。粤语中“我走先”、“奇怪了,又”4.语法语法的单位语法的单位:在语句中活动的、能被替换的成分。(语素,词,词组,句子)l 词组:词组是实词与实词的有机组合。在句子中相当于词的作用,但是比词大的语法单位。l 词组可以按照不同角度进行分类根据组合关系:陈述、支配、修饰、平行、补充五种关系;根据组合层次:简单词组(只能一次切分)和复杂词组(多次切分);根据组合的程度:自由词组和固定词组(归入词汇);根据中心词的词性:名词性词组、动词性词组、形容词性词组。4.语法语法的单位语法的单位:在语句中活动的、能被替换的成分。(语素,词,词组,句子)l 句子:是具有一定语调的,表达相对完整的思

    35、想和感情,按照一定语法规则组织起来的交际的基本单位。是语言系统中最大的语法单位。形式和意义是句子必备的成分,结构和功能是句子的分类依据。根据句子的结构,可把句子分为主谓句和非主谓句。根据句子的表述功能,可把句子成分分为陈述句、疑问句、祈使句、感叹句。l 4.语法 4.1 词法 4.2 句法 4.3 篇章语法 4.4 语法演变l 5.语义l 6.文字4.语法词法l 词法意义词法意义:词不但有词汇意义,而且具有语法意义。词的语法意义是指在组合和聚合中所产生的关系意义。“She writes.”中的writes,除了具有“写”这个词汇意义之外,还具有第三人称、单数、现在时的语法意义。l 语法范畴语法

    36、范畴:把语法意义进一步综合概括所形成的意义类别就叫语法范畴。词的语法范畴包括词形范畴和词类范畴两种。4.语法词法词形范畴词形范畴:用词形变化表现出来的语法意义的概括种类。l 性:语法上的性别观念种类,he,she,itl 数:某类词的数目,单数和复数,如 英语catcatsl 格:主格I,属格my,宾格mel 体:动作进行状态,如汉语的“着”、“了”、“过”是表示体。l 时:行为发生时间,如I love.I loved.I shall love.l 态:主体或客体与动作关系,主动态和被动态。l 式:说话人对所谈事物所持的态度,如英语的陈述式、虚拟式等。l 人称:行为发生者,如I am,he i

    37、s,you arel 级:性质或属性的程度区别,如英语“youngyoungeryoungest”4.语法词法词类范畴词类范畴:词类指词的语法意义的分类。分类的标准有:l 形态标准:即根据词的词形变化。如俄语中,有性、数、格变化的常常是名词、代词、形容词;有体、时、态、人称变化的常常为动词。l 意义标准:指在词汇意义基础上确定词类。如“走”、“跑”、“跳”归为动词l 功能标准:有三种情况 词与词的组合能力:如汉语名词不与“不”“了”组合,动词和形容词可以。词的句法功能:即词在句中能充当什么成分。如名词常充当主语和宾语 词的重叠方式:如形容词的重叠多为AABB(老老实实)多数语言可以把词划分为实

    38、词和虚词两大类:实词的意义较实在,一般能充当句子成分(如名词动词形容词代词数词);虚词一般不充当句子成分(如介词连词叹词等);副词则为半实半虚l 语法包括构词法、词法(构形法)、句法l 构形法:用一个词的词性变化表示不同的语法意义在词根内以语音变化为手段改变语法意义,foot-feet词根上加词缀或在词干上加词尾,book-books用不同的词根表达同一个词的不同语法意义,如 good-better 在用计算机来处理自然语言句子时,应注意处理词的不同变化形式 “I saw three girls coming here”l 4.语法 4.1 词法 4.2 句法 4.3 篇章语法 4.4 语法演

    39、变l 5.语义l 6.文字4.语法句法l 句法研究句子的模式,即句法结构句法结构。l 句法结构具有形式和意义两部分。l 句法结构的意义显性意义:指用一定的语法形式表示出来的各种语法关系。如陈述关系、修饰关系、支配关系、平行关系、补充关系,分别形成主谓结构、偏正结构、动宾结构、联合结构、后补结构隐性意义:指隐藏在显性意义后面的各种语法关系,如施事与动作、动作与受事的关系等。显性意义和隐性意义同时存在于句法结构中,互为依存。显性意义是表层的语法结构关系,隐性意义是深层的语法结构关系。4.语法句法句法结构的外部形式句法结构的外部形式:l 显性形式:从宏观的角度上看,句法结构的外部形式是线性,叫做显性

    40、形式。l 隐性形式:从微观的角度上看,句法结构的外部形式具有层次性。如:祖国是我们的母亲,从小到大的层次分析次序是 A+B+(C+D),由大到小是A+(B+C+D)-B+(C+D)-C+Dl 隐性形式和隐性形式都是句法结构的外部形式,隐性形式必须通过显性形式才能分析出来。用计算机来处理自然语言句子,计算机首先得到的是显性形式,目标是其隐性形式4.语法句法句法结构的分析方法句法结构的分析方法:l 句子成分分析法:从句法结构的关系意义特别是显性意义入手,对句子成分的功能和地位做分析。把主语、谓语、宾语称为基本成分,定状补称为附属成分如:祖国|是|我们的母亲,我们的生活生活一天天地好好起来优点:句中

    41、各个词之间的关系主次分明,各个词的作用和功能比较清楚,有利于修正病句。4.语法句法句法结构的分析方法句法结构的分析方法:l 直接成分分析法:从句法结构的外部形式,特别是隐性形式入手,对句子的直接组成成分进行分析。直接成分分析法一般分析到词为止。如:他的父亲是一个英勇的海军军官。进一步发展是树形图。4.语法句法句法结构的分析方法句法结构的分析方法:l 转换分析法:指显性形式的转化以及表层结构与深层结构之间的转换。显性形式的转换:主要指句式线性的转换l移位:小猫捉到了老鼠老鼠被小猫捉到了l插入:如“被”字l删减:如“打开窗户!”l复写:如It is really beautiful.It is r

    42、eally beautiful,isnt it?4.语法句法句法结构的分析方法句法结构的分析方法:l 转换分析法:表层结构与深层结构之间的转换。l 如歧义句:“咬死了猎人的狗”第一步:A*咬死了猎人的狗。B 狗把猎人咬死了。第二步:A*咬死了猎人的狗(显性)陈述关系,主谓结构 B 狗把猎人咬死了(显性)补充关系,后补结构第三步:A 删除*,咬死了猎人的狗(隐性)狗是受事 B 删除“把”(狗猎人咬死了),移位(咬死了猎人狗),插入“的”(咬死了猎人的狗)(隐性)狗是施事,猎人是受事第四步:A*是施事;B 狗是施事,猎人是受事转换分析可以帮我们揭示表层结构与深层结构之间的转换关系,利于计算机运算l

    43、 4.语法 4.1 词法 4.2 句法 4.3 篇章语法篇章研究比句子大的语言整体 4.4 语法演变l 5.语义l 6.文字l 4.语法 4.1 词法 4.2 句法 4.3 篇章语法 4.4 语法演变l 5.语义l 6.文字4.语法语法的演变语法的演变:是语言系统中最为稳固的,但也会变语法的演变:是语言系统中最为稳固的,但也会变化化(1)词法的变化:如实词虚化也称作“语法化”。汉语助词“着”、“了”、“过”(2)句法结构关系的变化:如词序的变化,“不患人不己知,”(3)类推:以语言中某些词和形式为标准使另一些词和形式向它看齐。如由“dogdogs”类推出“catcats”l 1.语言学概述l

    44、2.语音l 3.词汇l 4.语法l 5.语义l 6.文字5.语义l 语义:语义:指语言形式和言语形式表现出来的意义。l 语义包括语言意义和言语意义。语言意义:即音义结合的语言系统固有的意义,具有相对稳定、概括、多义的特点。如:“英雄”言语意义:指具体人在具体的环境中,对语言意义具体运用的结果。在具体环境中,概括多义的语言意义就会转化为较具体和较确定的言语意义。如:“向敢于和坏人作斗争的英雄学习!”l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义 5.1 语言意义 5.2 言语意义l 6.文字5.语义语言意义语言意义:语言意义:l 语言意义即音义结合的语言系统固有的意义。l 语

    45、言是音义结合的符号系统,语言符号系统的各级单位(词素、词、短语、句子),都对应着相应的语义最重要的是词义词义和句义句义5.语义语言意义词义词义:l 词义:即词汇意义。l 英语语义学家利奇把意义分为七种类型:概念意义:指词中表达概念的部分,是词义最基本的核心部分。多义词可以表达不同的概念意义:“花”,“英雄”,每个概念意义可以分解为多个语义成分:“妇女”-“人”+“女性”+“成年”内涵意义:如“喜鹊”在汉语中“报喜”,在斯拉夫语中“小偷”风格意义:如口头语和书面语情感意义:“死”连带意义:如”死”永远闭上了眼睛搭配意义:如pretty和handsome主题意义:如“老鼠吃了猫”和“猫被老鼠吃了”

    46、5.语义语言意义词义的特点词义的特点:l 概括性:概括反映某一类客观事物的共同特征。这使得有限的词汇能够表达无限的内容。l 明晰性与模糊性:客观世界中存在界限明晰的现象和界限模糊的现象是造成的客观原因。明晰性:如16点06分26秒模糊性:早晨 下午 晚上l 民族性:不同民族的人对客观事物进行概括反映,因此词义具有民族性。“打”“beat”l 共同性(可译性)词义是固定概念的,概念是人类共有的,不同民族的词义是相通的。5.语义语言意义词义:词义:l 每个词义都具有自己的内部结构成分,即义位和义位和义素义素。l 义位:是一个能够独立运用的概念意义所形成的语义单位。如“父”有两个义位:父亲、爸爸;对

    47、男性长辈的称呼,如师父、叔父l 义素:是对词某个义位的语义特征进行分析后得到的最小的语义单位,一个义位就是若干义素的集合。如:“父亲”:+人+男性+亲属+直系+长辈5.语义语言意义词义词义义素分析义素分析:l 义素分析:把一群词集合在一起,从义素的角度进行分析、对比与描写l 义素分析的一般程序:(1)确定分析对比的词的范围:“椅子”和“凳子”(2)确定共同义素:“坐具”(3)确定区别义素:“靠背”“扶手”(4)形式化描写:矩阵式 or 横排式用义素分析来对比分析语义,简明、清晰、形式化,有利于语言教学词共同义素区别义素坐具靠背扶手椅子/凳子5.语义语言意义句义:句义:l 句义:即句子的意思。l

    48、 现代语义学研究句义结构模式的聚合关系聚合关系和组合组合关系关系。句义结构模式的聚合关系:每一个句义都是由句义结构模式按照一定的规则组合起来的。句义述项1谓词述项2述项3自学考试好。他和妹妹(都在)上大学。妈妈送小明(一本)书。你这个人!l 句义结构模式的组合关系:研究具体的句子各语义结构模式在具体连接组合时,述项在谓词的作用下产生不同的格变化。述项在与谓词具体组合时产生不同的功能,叫做不同的格。l施事格,如“他赢了比赛”中的“他”l受事格,如“小猫在吃鱼”中的“鱼”l结果格,如“妈妈煮饭”中的“饭”l与格,如“他送我一束玫瑰”中的“我”l工具格,如“老王吃大碗”的“大碗”l方位格,如“家里养

    49、了一只猫”的“家里”l时间格,如“他考虑了一会儿”的“一会儿”l 1.语言学概述l 2.语音l 3.词汇l 4.语法l 5.语义 5.1 语言意义 5.2 言语意义l 6.文字5.语义言语意义l 言语意义言语意义:是语言意义在具体的语言环境中产生变化的结果。l 语境语境:小语境:指上下文中一个语言单位出现的前后语音、词或短语等环境,即上下文。大语境:指人使用语言进行交际时的具体场合及社会背景。语义在语境中是特定、具体的:“铃声传来”5.语义言语意义语境对语义的作用语境对语义的作用:l 限制作用:“夫人”“妻子”“老婆”l 明确作用:“我去上课”l 变更作用:“讨厌死你了”l 添补作用:“!”语

    50、义对语境的反映:语义对语境的反映:从语义及语义变化中可以观察到不同的社会背景l 语义可以反映身份、性格:书面语和口头语l 反映处境、心情:“风萧萧兮易水寒”l 反映社会生活:维新变法、五讲四美、科学发展观5.语义言语意义语义在语境中变化的形式语义在语境中变化的形式:l 具体义:“我的车没油了”l 虚化义:“九九那个艳阳天”l 反义:妻子怒斥丈夫“就你英雄!”l 转义:“事后诸葛亮”l 言外之意:小孩子对父母说“今天好多小朋友都要去游乐园”5.语义言语意义语境中句义组合的语义推断语境中句义组合的语义推断:l 预设:指利用语言进行交际时双方所共知的常识或根据句子的内容可推断出来的信息。“他家阳台的

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:自然语言自然语言处理课件.ppt
    链接地址:https://www.163wenku.com/p-5174461.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库