《自然语言处理》课件新模板 第二章 自然语言处理基础.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《自然语言处理》课件新模板 第二章 自然语言处理基础.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理 自然语言处理课件新模板 第二章 自然语言处理基础 自然语言 处理 课件 模板 第二 基础
- 资源描述:
-
1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 二 章 自 然 语 言 处 理 基 础第 二 章 自 然 语 言 处 理 基 础目录章节概述Contents1小节介绍2本章总结3章节概述B A C K G R O U N DONE章节概述自然语言处理是机器语言和人类语言沟通的桥梁,简单来说,自然语言处理所完成的工作是使计算机接受用户文本语言形式的输入,并在内部通过人类所定义的算法进行加工、计算等系列操作,模拟人类对自然语言的理解,并返回人类所期望的结果。自然语言处理一般可分为语料库与语言知识库的获取、文本预处理、文本
2、向量化表示、模型训练与预测四大步骤。其中语料库与语言知识库的获取、文本预处理、文本向量化表示为自然语言处理任务的基础工作,是本章即将重点介绍的内容,最后一步模型训练与预测依托于具体的自然语言处理任务,将在后续章节进行介绍。此外,自然语言处理开源工具库提供了很多用于文本分析、处理的接口,大大简化了自然语言处理的流程,这些工具库是学习自然语言处理和解决自然语言处理任务的基础工具,因此,本章还将对常用的自然语言工具库进行简要介绍。章节概述TWO小节介绍S E C T I O N I N T R O D U C T I O N2.1 语料库与语言知识库语料库2.1.12.1.2语言知识库输入替换内容输
3、入替换内容输入替换内容标题文本预设2.1.1 语料库 语料库概述语料,即语言材料,包括文本和语音。语料库(corpus)即语料的集合,也可称为自然语言处理领域的数据集,是为一个或者多个应用目标而专门收集的,有一定结构的、有代表的、可被计算机程序检索的、具有一定规模的语料集合。本质上讲,语料库实际上是通过对自然语言运用的随机抽样,以一定大小的语言样本来代表某一研究中所确定的语言运用的总体。01存放的是在语言的实际使用中真实出现过的语言材料以电子计算机为载体承载语言知识的基础资源,但并不等于语言知识真实语料需要经过加工(分析和处理),才能成为有用的资源语料库具备三个显著特点:0203输入替换内容输
4、入替换内容输入替换内容标题文本预设2.1.1 语料库-语料库的分类(多种划分方式)n 语言种类单语语料库(Monolingual Corpus)双语/多语语料库(Bilingual/Multi-lingual Corpus)n 加工深度非标注语料库(Non-Annotated Corpus)标注语料库(Annotated Corpus)n 用途通用语料库(General Corpus)专用语料库(Specialized Corpus)n 分布时间共时语料库(Synchronic Corpus)历时语料库(Diachronic Corpus)n 动态更新程度参考语料库(Reference Cor
5、pus)监控语料库(Monitor Corpus)n 输入替换内容输入替换内容输入替换内容标题文本预设2.1.1 语料库-语料库的分类-单语语料库和多语语料库仅包含一种语言的文本,例如维基百科官方提供的约11G的英语语料库以及约1.5G的中文语料库等。单语语料库包含两种及以上语言的文本,可分为多语平行语料库(Multi-lingual Parallel Corpus)和多语可比语料库(Multi-lingual Comparable Corpus)。多语平行语料库中多种语言之间构成翻译关系,要求多种语言文本之间对齐,其对齐程度通常是词级、句子级、段落或是篇章级,例如机器翻译领域的WMT语料库、
6、联合国平行语料库(United Nations Parallel Corpus);多语可比语料库收集在内容、语域、交际环境等方面相近的不同语言文本,多种语言之间没有翻译关系,文本之间无需对齐,多用于对比语言学,例如英语可比语料库(English Comparable Corpus,ECC)。多语语料库输入替换内容输入替换内容输入替换内容标题文本预设2.1.1语料库-语料库的分类-非标注语料库和标注语料库原始语料库,语料库组织者只是简单地把语料收集起来,不加任何标注信息,未标注语料库一般用于聚类分析任务、词向量训练任务以及预训练语言模型任务等。非标注语料库对原始语料库进行人工或者机器标注的语料库
7、,例如对情感分析语料库中每一条样本标注“积极/消极”两种情感态度,或者标注“积极/消极/中立”三种情感态度等。标注语料库在自然语言处理任务中最为常用,该库的标注任务一般为人工完成,或是机器辅助人工完成。标注语料库标题文本预设2.1.1 语料库-语料库的分类-通用语料库和专用语料库力求能够最好地代表一种语言的全貌,例如英语国家语料库(The British National Corpus,BNC)。通用语料库容量庞大,往往可以过滤出特定属性的文本,形成多个专门用途的子语料库,比如,科技学术语料库,新闻语料库等。通用语料库为了某种特定的研究目的,只采集某一特定的领域、特定地区、特定时间、特定类型的
8、语料构成的语料库,例如针对不同的自然语言处理任务,有文本分类语料库、情感分析语料库、命名实体识别语料库等,针对不同研究领域,有新闻语料库、金融语料库、小说语料库、古诗语料库等。专用语料库标题文本预设2.1.1 语料库-语料库的分类-共时语料库和历时语料库由同一时代的语料构成语料库共时语料库基于不同时代的语料所构造的多个共时语料库可以构成一个历时语料库,历时语料库常用于观察和研究语言变化,例如中央研究院古汉语语料库(Academia Sinica Ancient Chinese Corpus),该库包含上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献五个语料库。,其中上古汉语、中古汉语(
9、含大藏经)、近代汉语这三个语料库可分别看作是三个共时语料库,而古汉语语料库本身就可看作是一个历时语料库,历时语料库常用于观察和研究语言变化。历时语料库标题文本预设2.1.1 语料库-语料库的分类-参考语料库和监控语料库参考语料库和监控语料库参考语料库监控语料库则需要不断地进行动态更新监控语料库语料库必须以电子形式存在,计算机可读的语料库结构性体现在语料记录的代码、元数据项、数据类型、数据宽度、取值范围、完整性约束。结构性语料库是在一定的抽样框架范围内采集而来的,并且能在特定的抽样框架内做到代表性和普遍性代表性元数据是描述数据的数据(data about data),主要是描述数据属性(prop
10、erty)的信息,如语料的时间、地域、作者、文本信息等,元数据能够帮助使用者快速理解和使用语料库,对于研究语料库有着重要的意义。元数据大规模的语料对语言研究特别是对自然语言研究处理十分必要,但达到一定规模后,更多的数据未必会有性能的提升,语料库规模应根据实际情况而定。规模性同一语言上的平行,语料选取的时间、对象、比例、文本数、文本长度等几乎是一致的;多种语言之间的平行采样和加工。平衡性2.1.1 语料库-语料库构建基本原则2.1 语料库与语言知识库语料库2.1.12.1.2语言知识库输入替换内容输入替换内容输入替换内容标题文本预设2.1.2 语言知识库语言知识库包括词典、词汇知识库、句法规则库
11、、语法信息库、语义概念等各类语言资源,是自然语言处理系统的必要组成部分。语言知识库可分为两类,一类是显性语言知识表示库,如词典、规则库、语义概念库等,可以采用形式化结构描述;另一类是隐式的语言知识库,这类语料库的主体是文本,即语句的集合。隐式语言知识库中每个语句都是非结构化的文字序列,该库的知识隐藏在文本中,需要进一步处理才能把隐式的知识提取出来,以供机器学习和使用。实际上,由于第二类隐式语言知识库在使用时需要提取隐式信息并使用形式化结构表示,即经过处理后与第一类显性语言知识库无异,因此隐式语言知识库在自然语言处理领域很少被提及。著名的显性语言知识库有:词网北京大学综合性语言知识库知网输入替换
12、内容输入替换内容输入替换内容标题文本预设2.1.2 语言知识库-词网词网(WordNet)是由美国普林斯顿大学认知科学实验室领导开发,由心理学家,语言学家和计算机工程师联合设计的一种基于认知语言学的英语词典。WordNet按照单词的意义组成一个“单词的网络”,WordNet将名词,动词,形容词和副词分别组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,并且这些集合之间也由各种关系连接,这些关系包括同义关系(synonymy)、反义关系(antonymy)、整体与部分关系(meronymy)和继承关系(entailment)等。通俗地来说,WordNet是一个结构化知识库,它不仅包
13、括一般的词典功能,还包括词的分类信息。输入替换内容输入替换内容输入替换内容标题文本预设2.1.2 语言知识库-北京大学综合性语言知识库北京大学综合型语言知识库(Peking University Comprehensive Language Knowledge Base),简称CLKB,由北京大学俞士汶教授领导建立。该语言知识库从词、词组、句子、篇章各粒度和词法、句法、语义各层面进行语言资源的整理,涵盖了现代汉语语法信息词典、汉语短语结构规则库、现代汉语多级加工语料库(词语切分及词类标注)、多语言概念词典、平行语料库(英汉对照语句)、多领域术语库(英汉对照术语)。该知识库是目前国际上规模最大且
14、获得广泛认可的汉语语言知识资源库。输入替换内容输入替换内容输入替换内容标题文本预设知网(HowNet)是由机器翻译专家董振东和董强创建的语言知识库。HowNet以汉语和英语的词语所代表的概念为描述对象,将概念与概念之间以及概念所具有的属性之间的关系构成一个网状的知识系统。知网所要反映的是概念的共性、个性,以及概念之间的关系,例如,对于“医生”和“患者”,“人”是他们的共性,而“医生”的个性是“医治”的施者,“患者”的个性是“患病”的经验者,“医生”和“患者”之间的关系是“医生”医治“患者”。HowNet还是最著名的义原知识库,义原在语言学中被定义为最小的、不可再分割其语义的语言单位,例如:“人
15、”虽然是一个非常复杂的概念,它可以是多种属性的集合体,但也可以把它看作一个义原,“男孩”、“女孩”的义原都可归为“人”。HowNet通过对全部的基本义原进行观察分析并形成义原的标注集,然后再用更多的概念对标注集进行考核,从而建立完善的标注集。2.1.2 语言知识库-知网输入替换内容输入替换内容输入替换内容标题文本预设2.1.2 语言知识库新时代意义上述语言知识库的建立和发展主要是集中在2000年前后,并对该阶段的词汇相似度计算、同义词、反义词、信息检索等技术的发展起到了决定性作用。进入深度学习时代之后,自然语言处理专家发现通过大规模文本数据能够很好地学习词汇的语义表示,如以Word2Vec为代
16、表的词向量学习方法,用低维(一般数百维)、稠密、实值向量来表示每个词汇/词义的语义信息,利用大规模文本中的词汇上下文信息自动学习向量表示,并基于这些向量表示计算词汇语义相似度、同义词、反义词等,能够取得比传统的基于语言知识库的方法更好地效果。因此,近年来传统语言知识库的学术关注度很低,大部分基于深度学习的自然语言处理模型并未使用到语言知识库。即便如此,语言知识库仍旧有着巨大的潜在价值,近年来一些学者将语言知识库与深度学习方法融合,在词汇表示学习、词典扩展、新词义原推荐(对于新词自动推荐义原)等任务上取得了一定的突破。例如,在自然语言理解方面,词汇是最小的语言使用单位,却不是最小的语义单位,Ho
17、wNet提出的义原标注体系正是突破词汇屏障,深入了解词汇背后丰富语义信息的重要通道。近年来,一些学者在词汇表示学习、词典扩展、新词义原推荐(对于新词自动推荐义原)等任务上,验证了HowNet知识库与深度学习模型融合的有效性,这也印证了语言知识库在深度学习时代的应用价值。2.2 文本预处理数据清洗2.2.12.2.2分词处理2.2.3特征过滤输入替换内容输入替换内容输入替换内容标题文本预设2.2.1 数据清洗数据清洗的目的即排除非关键信息(包括文本的标准化,例如繁简统一),只需要保留文本内容所阐述的文字信息即可,并同时尽可能减小这些信息对算法模型构建的影响。以爬取的网页文本数据为例,这些数据往往
18、会带有标签信息、广告信息,以及文本数据中一些不必要的标点、特殊字符等,这些信息与文本所表达的内容不仅毫无关联,还可能会产生不必要的干扰,将这些信息用于模型训练显然是不可取的。因此在将数据输入模型之前,需要去除掉这些信息。数据清洗工作可以利用正则表达式来完成,例如去除文本中的数字信息:原始句子:我爱中国233正则表达式(匹配数字):d+或者0-9+去除后:我爱中国2.2 文本预处理数据清洗2.2.12.2.2分词处理2.2.3特征过滤输入替换内容输入替换内容输入替换内容标题文本预设2.2.2 分词处理分词,又可称为“标记化(Tokenization)”,分词处理是对句子、段落、文章这种长文本,分
19、解为以词为单位的数据表示。由于中英文文本结构的差异,分词处理也有一定区别。英文分词英文文本的句子、段落之间以标点符号分隔,单词之间以空格作为自然分界符,因此英文分词只需根据标点符号、空格拆分单词即可,例如:英文文本:I am a student英文分词处理后:I/am/a/student中文分词中文文本是由连续的字序列构成中文分词是将连续的字序列按照一定的规范重新组合成词序列的过程,例如:中文文本:南京市长江大桥分词处理1:南京市/长江大桥分词处理2:南京/市长/江大桥中文文本分词问题:词与词之间没有天然的分隔符,并且不同的分割方式还会导致歧义问题(如上例),因此中文分词相对于英文分词要复杂得
20、多。输入替换内容输入替换内容输入替换内容标题文本预设2.2.2 分词处理中文分词较为复杂,关于中文分词这一问题可使用一些分词工具来完成。结巴分词是基于混合分词方法实现的一个中文分词工具,是目前国内使用最为广泛的分词工具,该工具支持中文文本分词、词性标注、关键词抽取等功能。结巴提供了三种分词模式:精确模式:也是默认模式,试图将句子最精确地切开,适用于文本分析和处理;全模式:把句子中所有的可以成词的词语都扫描出来,速度快,但不能解决歧义;搜索引擎模式:在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。对于文本“文本处理不可或缺的一步”分别使用上述三种模式进行分词,结果如下:精确
21、模式/默认模式:文本处理/不可或缺/的/一步全模式:文本/文本处理/本处/处理/不可/不可或缺/或缺/的/一步搜索引擎模式:文本/本处/文本处理/不可/或缺/不可或缺/的/一步结巴分词支持用户自定义词典,例如,在上页场景下将“江大桥”一词写入自定义词典,并为“江大桥”设置较高的词频,使用装载用户自定义词典的结巴工具再次分词时,便可得到“南京/市长/江大桥”这一所需结果。2.2 文本预处理数据清洗2.2.12.2.2分词处理2.2.3特征过滤分词处理输入替换内容输入替换内容输入替换内容标题文本预设2.2.3 特征过滤经过文本预处理后的每一条文本被表示为一个词序列,这个词序列中可能会包含一些与自然
22、语言处理任务无关或者无意义的词,也可称之为噪声。通常,需要对这个词序列进行过滤以去除噪声,从而得到清洁特征(词序列)。常见的特征过滤方法有3种:停用词过滤基于频率的过滤词干提取输入替换内容输入替换内容输入替换内容标题文本预设2.2.3 特征过滤-停用词过滤停用词(Stop Words)指一些没有具体含义的虚词,包括连词、助词、语气词等无意义的词,例如汉语中的“呢”、“了”,英语中的a、the等,这些虚词仅仅起到衔接句子的作用,对文本分析没有任何帮助甚至会造成干扰,因此需要对分词后的数据做停用词的去除。去除停用词需要借助停用词表,自然语言工具包(Natural Language Toolkit,
23、简称NLTK)中包含了英语、法语等多种停用词词表。例如,下面是NLTK英文停用词词表的一些词:a about above am an been didnt couldnt id ill itself lets myself.中文常用的停用词表包括哈工大停用词表、百度停用词表等。例如,下面是哈工大停用词词表的一些词:啊 阿 哎 哎呀 哎哟 唉 但 但是 当 当着 到 得 的 不如 这个 另注意,停用词过滤需要根据具体的任务而定,例如在商品评论情感分析任务中:“这个 商品 挺好 的,但是 不如 另 一家”,很明显该评价并非十分积极的评价,但如果直接使用上述停用词词库过滤会得到:“商品 挺好 一家”
24、,过滤后变成积极评价,已经无法表达出原来的语义。输入替换内容输入替换内容输入替换内容标题文本预设2.2.3 特征过滤-基于频率过滤除过滤停用此外,还可以使用频率统计过滤高频无意义的词以及低频罕见词。排名排名词词文档频率文档频率1the1 416 0582and1 381 3243a1 263 1264i1 230 2145to1 196 2386it1 027 8357of1 025 638.13but822 313.27Good598393.33Great520634 检查高频词以Yelp数据集为例,表中列出了Yelp点评数据集中出现频率最高的一些词,这里的频率指的是包含这个词的点评数。可见
25、高频词包含很多停用词,例如“the”、“and”等,这些停用词需要被过滤掉,但还有一些该数据集的常见词,例如:“good”、“great”等,对于情感分析这样的任务来说是非常有用的,需要保留下来。表 Yelp点评数据集中出现频率最高一些词输入替换内容输入替换内容输入替换内容标题文本预设2.2.3 特征过滤-基于频率过滤 检查低频词检查出现频率低的词,即罕见词。这些词可能是该语料库的生僻词或者拼写错误的普通词,对于模型来说,这些词仅仅在几篇文章中出现,更像是噪声而非有用信息。罕见词不仅无法作为预测的凭据,还会增加计算上的开销。以Yelp点评数据集为例,该数据集中有160万条点评数据,包括3574
展开阅读全文