自然语言处理课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《自然语言处理课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言 处理 课件
- 资源描述:
-
1、一个项目的需求v通过微信,实现以下功能:用户可以输入病情描述,了解挂号科室(即所谓“分诊”)用户可以通过过微信了解医院及及业务的基本情况(如科室分布、流程)v怎么办?再如:v有没有可能让电脑代替人来看论文,以节约研究者看论文的时间,以便以比较小的代价了解学术前沿?v如何帮助学生解决阅读理解的问题?一、什么是人工智能v人工智能(Artificial Intelligence),英文缩写为AI。它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。v人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器,该
2、领域的研究包括机器人、语言识别、图像识别、自然语言处理和专家系统等。二、自然语言处理概述v什么是语言?语言是用于传递信息的表示方法、约定和规则的集合,它由语句组成,每个语句又由单词组成;组成语句和语言时,应遵循一定的语法与语义规则。语言语言词汇词汇词词熟语熟语词素词素构形法构形法 构词法构词法语法语法词法词法句法句法词组构造法词组构造法造句法造句法语言的构成图语言的构成图1 什么是自然语言理解v 从微观上讲,语言理解是指从自然语言到机器(计算机系统)内部之间的一种映射。v自然语言处理(Natural Language Processing,简称NLP)就是用计算机来处理、理解以及运用人类语言(
3、如中文、英文等),它属于人工智能的一个分支,是计算机科学与语言学的交叉学科,又常被称为计算语言学。语言理解所包含的功能,即NLP的应用v从宏观上看,语言理解是指机器能够执行人类所期望的某些语言功能。这些功能包括:回答有关提问;提取材料摘要;不同词语叙述;不同语言翻译。2 自然语言处理的兴起v值得一提的是,自然语言处理的兴起与机器翻译这一具体任务有着密切联系。v由于人工进行翻译需要训练有素的双语专家,翻译工作非常耗时耗力。更不用说需要翻译一些专业领域文献时,还需要翻译者了解该领域的基本知识。世界上有超过几千种语言,而仅联合国的工作语言就有六种之多。如果能够通过机器翻译准确地进行语言间的翻译,将大
4、大提高人类沟通和了解的效率。3 自然语言理解过程的层次 v 语言的分析和理解过程是一个层次化的过程,它主要包括如下四个层次:语音分析词法分析句法分析语义分析言语文本语音分析OCR/标记化形态变化语法分析语义解释言谈处理语音分析语音分析v在有声语言中,最小的、可独立的声音单元是音素,音素是一个或一组音,它可与其他音素相区别。如pin和bin中分别有/p/和/b/这两个不同的音素,但pin,spin和tip中的音素/p/是同一个音素,它对应了一组略有差异的音。语音分析则是根据音位规则,从语音流中区分出一个个独立的音素,再根据音位形态规则找出一个个音节及其对应的词素或词。v语音分析传统的方法v音素深
5、度学习下的语音分析v通过声音特征并将这些特征表示为向量直接来预测音素(或词语)词法分析词法分析v词法分析的主要目的目的是找出词汇的各个词素,从中获得语言学信息,如unchangeable是由un-change-able构成的。在英语等语言中,找出句子中的一个个词汇是一件很容易的事情,因为词与词之间是由空格来分隔的。v但是要找出各个词素就复杂得多,如importable,它可以是im-port-able或import-able。这是因为im,port和import都是词素。v而在汉语中要找出一个个词素则是再容易不过的事情,因为汉语中的每个字就是一个词素。(是否正确?词素是构成词的最小单位)v但是
6、要切分出各个词就远不是那么容易。如“我们研究所有东西”,可以是“我们研究所有东西”也可以是“我们研究所有东西”。(这正是我们后面要讨论的重要内容:分词)中文的分词及其中存在的问题v由于单词是承载语义的最小单元,要解决自然语言处理,单词的边界界定问题首当其冲。特别是中文文本通常由连续的字序列组成,词与词之间缺少天然的分隔符,因此中文信息处理比英文等西方语言多一步工序,即确定词的边界,我们称为“中文自动分词”任务。通俗的说就是要由计算机在词与词之间自动加上分隔符,从而将中文文本切分为独立的单词。v中文自动分词处于中文自然语言处理的底层,是公认的中文信息处理的第一道工序,扮演着重要的角色,主要存在新
7、词发现和歧义切分等问题。思考:v是否可以说:分词后的汉语与英语对计算机来讲可以看成一样的?vThis is the computer on my desk.v这 是 我 桌子 上 的 电脑。v或者说:NLP的很多适用于英语的是否可以直接用于分词后的汉语?v通过词法分析可以从词素中获得许多语言学信息。英语中词尾中的词素“s”通常表示名词复数,或动词第三人称单数,“ly”是副词的后缀,而“ed”通常是动词的过去式与过去分词等,这些信息对于句法分析都是非常有用的。v另一方面,一个词可有许多的派生、变形,如work,可变化出works,worked,working,worker,workings,wo
8、rkable,workability等。这些词若全部放入词典将是非常庞大的,而它们的词根只有一个。词法分析词法分析的的传统传统的方法的方法v语素,例如前缀,词干,后缀等深度深度学学习下的习下的词法分析词法分析v每个语素都用向量表示v神经网络用于向量的两两合并句法分析句法分析v句法分析是对句子和短语的结构进行分析。在语言自动处理的研究中,句法分析的研究是最为集中的,这与乔姆斯基(Chomsky)的贡献是分不开的。v自动句法分析的方法很多,有短语结构语法、格语法、扩充转移网络、功能语法等。句法分析的最大单位就是一个句子。分析的目的就是找出词、短语等的相互关系以及各自在句子中的作用等,并以一种层次结
9、构来加以表达。这种层次结构可以是从属关系、直接成分关系,也可以是语法功能关系。句法分析句法分析的的传统方法传统方法v将一个短语或句子划分到多个句法标记,v例如NP,VP等深度深度学习学习下的下的句法分析句法分析v每个单词或者短语都是一个向量v神经网络用于向量的两两合并语义分析语义分析v对于语言中的实词而言,每个词都用来称呼事物,表达概念。句子是由词组成的,句子的意义与词义是直接相关的,但也不是词义的简单相加。v“我打他”和“他打我”的词是完全相同的,但表达的意义是完全相反的。因此,还应当考虑句子的结构意义。英语中a red table(一张红色的桌子),它的结构意义是形容词在名词之前修饰名词,
10、但在法语中却不同,one table rouge(一张桌子红色的),形容词在被修饰的名词之后。v语义分析就是通过分析找出词义、结构意义及其结合意义,从而确定语言所表达的真正含义或概念。在语言自动理解中,语义越来越成为一个重要的研究内容。语义分析语义分析的的传统方法传统方法vLambda算子 or Lambda演算(Lambda calculus)v非常精细的函数设计v需要指定其他函数的输入v没有相似性的概念或者模糊语言深度深度学习学习下的下的语义分析语义分析v每个单词或者短语或者逻辑表达式都是一个向量v神经网络用于向量的两两合并语用分析语用分析v就是研究语言所在的外界环境对语言使用所产生的影响
11、。它描述语言的环境知识、语言与语言使用者在某个给定语言环境中的关系。4自然语言处理的主要困难:消歧v自然语言处理的困难可以罗列出来很多,不过关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。v而正确的消歧需要大量的知识,包括语言学知识(如词法、句法、语义、上下文等)和世界知识(与语言无关)。这带来自然语言处理的两个主要困难。v其他级别的语言单位也存在着各种歧义问题。例如在短语级别上、句子级别上。v总之,同样一个单词、短语或者句子有多种可能的理解,表示多种可能的语义。如果不能解决好各级语言单位的歧义问题,我们就无法正确理解语言要表达的意思。v另外一个方面,消
12、除歧义所需要的知识在获取、表达以及运用上存在困难。由于语言处理的复杂性,合适的语言处理方法和模型难以设计。v例如上下文知识的获取问题。由于上下文对于当前句子的暗示形式是多种多样的,因此如何考虑上下文影响问题是自然语言处理中的主要困难之一。v再如背景知识问题。正确理解人类语言还要有足够的背景知识。自然语言处理困难的根源v从上面的两个方面的主要困难,我们看到自然语言处理这个难题的根源就是人类语言的复杂性和语言描述的外部世界的复杂性。5自然语言处理的应用v从应用角度来看,自然语言处理具有广泛的应用前景。特别是在信息时代,自然语言处理的应用包罗万象v例如:机器翻译、手写体和印刷体字符识别、语音识别及文
13、语转换、信息检索、信息抽取与过滤、文本分类与聚类、舆情分析和观点挖掘等,它涉及与语言处理相关的数据挖掘、机器学习、知识获取、知识工程、人工智能研究和与语言计算相关的语言学研究等。自然语言处理的应用v拼写检查,关键词提取与搜索,同义词查找与替换v从网页中提取有用的信息例如产品价格,日期,地址,人名或公司名等v分类:例如对教科书的文本进行分级,对长文本进行正负情绪判断v机器翻译v口语对话系统v复杂的问答系统工业界中NLP的应用v搜索引擎v在线广告v自动的或辅助的翻译技术v市场营销或者金融交易领域的情感分析v语音识别NLP应用:情感分析v传统的方法:精选的情感词典+词袋模型(忽略词序)+人工设计的特
14、征(很难覆盖所有的信息)v深度学习:和上述词素,句法和语义相似的深度学习模型-RNNNLP应用:问答系统v传统的方法:用了非常多的特征工程去获取相关的知识,例如正则表达式v深度学习:和上述词素,句法,语义,情感分析相似的深度学习模型v知识可以储备在向量中NLP应用:机器翻译v传统的机器翻译系统是一个非常大的复杂系统v可以思考一下在深度学习中中间语(interlingua)对于翻译系统是如何起作用的?v深度学习:v源句子首先映射为向量,然后在输出的时候进行句子生成三、自然语言处理的方法v目前,人们主要通过两种思路来进行自然语言处理,一种是基于规则的理性主义,另外一种是基于统计的经验主义。v理性主
15、义方法认为,人类语言主要是由语言规则来产生和描述的,因此只要能够用适当的形式将人类语言规则表示出来,就能够理解人类语言,并实现语言之间的翻译等各种自然语言处理任务。v而经验主义方法则认为,从语言数据中获取语言统计知识,有效建立语言的统计模型。因此只要能够有足够多的用于统计的语言数据,就能够理解人类语言。1基于规则的自然语言处理v仅讨论句法和语义句法模式匹配和转移网络 v句法分析最为简单直观的方法-模式匹配。v一个句子可以表示成:(pronoun(adj*noun)verb(pronoun(adj*noun)v这也可以用状态转移图来表示,称之为转移网络(TN,transition network
16、),如图11.2所示。v图中,q0,q1,qT是状态,q0是初态,qT是终态。弧上给出了状态转移的条件以及转移的方向。46转移网络(TN)q0nounpron.q2q1adjq3qTverbverbpron.nounq4q5adj扩充转移网络 v 扩充转移网络ATN是由一组网络所构成的,每个网络都有一个网络名,每条弧上的条件扩展为条件加上操作。vATN的每个寄存器由两部分构成:句法特征寄存器 句法功能寄存器名词短语(NP)的扩充转移网络ghfNP7:pp8:send3:adj4:noun2:jump1:det5:pron.6:prop.句子的扩充转移网络词汇功能语法(LFG)v LFG用一种结
17、构来表达特征、功能、词汇和成分的顺序。vLFG对句子的描述分为两部分:直接成分结构(Constituent Structure,简称C-Structure);功能结构(Functional Structure,简称F-structure)。用LFG语法对句子进行分析的过程v用上下文无关语法分析获得C-structure,不考虑语法中的下标;该C-structure就是一棵直接成分树;将各个非叶节点定义为变量,根据词汇规则和语法规则中的下标,建立功能描述(一组方程式);对方程式作代数变换,求出各个变量,获得功能结构F-structure。语义的解析 v 语义解析的步骤如下:第一步 确定每个词在句
18、子中所表达的词义;第二步 根据已有的背景知识来确定语义。v 逻辑形式表达是一种框架式的结构,它表达一个特定形式的事例及其一系列附加的事实,如“Jack kissed Jill”,可以用如下逻辑形式来表达:v (PAST S1 KISS-ACTIONAGENT(NAME j1 PERSON“Jack”)THEM ENAME(NAME j2 PERSON“Jill”)句子的自动理解:简单句的理解方法 v为了理解一个简单句,需要做以下两方面 的工作:理解语句中的每一个词。以这些词为基础组成一个可以表达整个语句意义的结构。其中第二项工作又可分成以下3个部分来进行:v句法分析将单词之间的线性次序变换成一
19、个显示单词如何与其它单词相关联的结构。v语义分析各种意义被赋于由句法分析程序所建立的结构,即在句法结构和任务领域内对象之间进行映射变换。v语用分析为确定真正含义,对表达的结构重新加以解释。复合句的理解方法 v 复合句的理解,要求发现句子之间的相互关系。这种关系包括以下几种:相同的事物 事物的一部分 行动的一部分 与行动有关的事物 因果关系 计划次序 语言的自动生成(Automatic Generation of Language)v语言生成就是把在计算机内部以某种形式存放的需要交流的信息,以自然语言的形式表达出来。v语言生成是自然语言理解的一个逆过程。一般包括以下两部分:建立一种结构,以表达出
20、需要交流的信息以适当的词汇和一定的句法规则,把要交流的信息以句子形式表达出来2自然语言处理的统计学模型v研究发现,通过对大量的文本数据的自动学习和统计,能够更好地解决自然语言处理问题,如语言的自动翻译。这一思想被称为自然语言处理的统计学习模型,至今方兴未艾。自然语言处理与人工智能v由于自然语言是人类区别于其他动物的根本标志。没有语言,人类的思维也就无从谈起,所以自然语言处理体现了人工智能的最高任务与境界。v也就是说,只有当计算机具备了处理自然语言的能力时,机器才算实现了真正的智能。v下棋和自然语言处理是人工智能这一概念形成时人们提出的标志性的两个应用 统计语言学与基于规则的理性语义的结合v人们
21、逐渐意识到,单纯依靠统计方法已经无法快速有效地从海量数据中学习语言知识,只有同时充分发挥基于规则的理性主义方法和基于统计的经验主义方法的各自优势,两者互相补充,才能够更好、更快地进行自然语言处理。四、向量空间模型(Vector space models,VSMs)v将词语表示为一个连续的词向量,并且语义接近的词语对应的词向量在空间上也是接近的。vVSMs在NLP中拥有很长的历史,但是所有的方法在某种程度上都是基于一种分布式假说,该假说的思想是如果两个词的上下文(context)相同,那么这两个词所表达的语义也是一样的;v换言之,两个词的语义是否相同或相似,取决于两个词的上下文内容,上下文相同表
22、示两个词是可以等价替换的。语义词典v通常使用类似Wordnet的这样的语义词典,包含有上位词(is-a)关系和同义词集语义词典存在的问题v语义词典资源很棒但是可能在一些细微之处有缺失,例如这些同义词准确吗:adept,expert,good,practiced,proficient,skillful?v会错过一些新词,几乎不可能做到及时更新:wicked,badass,nifty,crack,ace,wizard,genius,ninjiav有一定的主观倾向v需要大量的人力物力v很难用来计算两个词语的相似度1词向量及其表示方式v词向量就是用来将语言中的词进行数学化的一种方式,顾名思义,词向量就
23、是把一个词表示成一个向量。v主要有两种表示方式:one-hot representationv一种最简单的词向量方式是 one-hot representation,就是用一个很长的向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个 1,其他全为 0,1 的位置对应该词在词典中的位置。这种 One-hot Representation 如果采用稀疏方式存储,会是非常的简洁:也就是给每个词分配一个数字 ID。比如刚才的例子中,话筒记为 3,麦克记为 8(假设从 0 开始记)。如果要编程实现的话,用 Hash 表给每个词分配一个编号就可以了。这么简洁的表示方法配合上最大熵、SVM、CRF
24、 等等算法已经很好地完成了 NLP 领域的各种主流任务。one-hot representation的缺点v(1)容易受维数灾难的困扰,尤其是将其用于 Deep Learning 的一些算法时;v(2)不能很好地刻画词与词之间的相似性(术语好像叫做“词汇鸿沟”):任意两个词之间都是孤立的。分布式表示:分布式表示:Distributed Representationv最早是 Hinton 于 1986 年提出的,可以克服 one-hot representation 的缺点。其基本想法是直接用一个普通的向量表示一个词,这种向量一般长成这个样子:0.792,0.177,0.107,0.109,0.
25、542,.,也就是普通的向量表示形式。维度以 50 维和 100 维比较常见。Distributional similarity based representations基于统计的分布相似v通过一个词语的上下文可以学到这个词语的很多知识2 词向量的获得方法v当然一个词怎么表示成这么样的一个向量是要经过一番训练的,训练方法较多,word2vec是其中一种。v每个词在不同的语料库和不同的训练方法下,得到的词向量可能是不一样的。使用同样的训练方法,语料对词向量有最重要的影响Garbage in,garbage out.这也是很多AI公司首先要做数据清洗的原因。v由于是用向量表示,而且用较好的训练算
展开阅读全文