《自然语言处理》课件新模板 第九章 摘要生成.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《自然语言处理》课件新模板 第九章 摘要生成.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理 自然语言处理课件新模板 第九章 摘要生成 自然语言 处理 课件 模板 第九 摘要 生成
- 资源描述:
-
1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 九 章第 九 章 摘 要摘 要 生 成生 成目录章节概述Contents1小节介绍2本章总结3ONE章节概述C H A P T E R O V E R V I E W章节概述 随着互联网技术的不断发展,网络上的文本数据也呈现出爆炸的趋势,面对如此庞大量级的数据,人工对文本信息进行总结以及摘要提取是非常难实现的。互联网中蕴含着大量信息通常也远远大于我们需要的数量。因此,我们在使用这些信息的过程中经常会出现以下两个问题:A.在大量现有的信息之中寻找与我们的目标相契合的信息片
2、段;B.从大量相关的信息片段中总结出结论或者关键点。在这种背景情况下,对于数据的自动“降维”技术的需求就显得尤为迫切。文本摘要技术旨在利用计算机将大量文本信息简化为包含原文本信息的简短摘要,并保证信息的核心意思不发生缺失或者改变。一个好的摘要系统应该反映不同信息的不同主题,同时尽量减少冗余以极大的提高信息的使用效率,将人们从信息的海洋中解救出来。章节概述文本摘要按照输出的类型分类可以分为抽取式摘要(Extract Summarization)和生成式摘要(Abstract Summarization)。抽取式摘要是指从源文档中抽取关键句或者关键词组成文本的摘要,其特点则是摘要的全部内容均来源于
3、原文。生成式摘要则更接近于人工提取摘要的过程,这种方法允许计算机自行识别文本的特征,然后自行总结出文本的摘要内容,其特点为摘要中可能包含原文中未出现过的词句。章节概述 本章将就抽取式与生成式两种摘要抽取方法进行讨论,以时间为主线分别梳理两种方法的历史发展进程与实现方法,最后评析文本摘要领域现有的前沿技术以及该领域的发展趋势与挑战。TWO小节介绍S E C T I O N I N T R O D U C T I O N技术原理、数据集、评价指标基本介绍9.1 抽取式摘要9.1.1基于传统机器学习的抽取式文本摘要生成方法9.1.29.1.3基于深度学习的抽取式文本摘要生成方法9.1.1 抽取式摘要
4、 技术原理 抽取式文本摘要系统的基本原理是对原始文本中不同的句子或段落进行评估,选择出重要的句子、段落等,组成文本的摘要信息。大多数情况下文本片段重要性的评估是基于对单个或多个混合的表层特征(如单词/短语频率、位置或提示词)来进行的,系统依据这些特征以及相应的规则对文本片段进行打分,从而确定要提取的句子的位置。在这套体系之下,出现的“最为频繁”的内容或者“位置更加有利”(例如,位于段首的句子或者文章的首段)的内容通常会被系统认为是“最重要”的内容。抽取式摘要系统所做的工作是通过某种形式的统计分析绕过了对文本内含特征的深入理解。优点:概念上更加简单、可解释性更好,并且易于实现缺点:最终生成的文本
5、摘要在语义上的连贯性就不那么尽如人意9.1.1 抽取式摘要 技术原理抽取式文本摘要大致上可以分为两步:12数据预处理对原文本进行结构化的表示。例如需要进行句子边界识别、停用词消除、词干提取等工作语句重要性评估对影响句子相关性的特征进行确定和计算,然后采用权值学习的方法对这些特征赋权。然后使用Feature-weight方程计算出每个句子的最终得分,并选择排在最前面的句子作为最后的总结。9.1.1 抽取式摘要 技术原理抽取式文本摘要来讲主要面临以下几个难点:1.系统抽取出的“重要”的句子往往在长度上要大于原文本的平均句子长度。因此对于摘要来说不重要的部分也会包括进来,占用空间;2.抽取式文本摘要
6、系统原理上是从源文本中抽取一句话作为文本的摘要。但客观事实上,重要或相关的信息通常并非集中于一个中心句中,而是分布在各个句子中。所以提取性的摘要很难捕捉到这些信息(除非摘要足够长,能够容纳所有的句子);3.如果文本当中存在相互矛盾的信息,例如,涉及到事物的两面性时,抽取式的文本摘要将会很难处理这种信息;单纯的提取式文本摘要系统还会经常导致提取出的摘要整体连贯性差,也就是说系统抽取出来的摘要在我们人类看来不符合基本语法、不通顺或者不能表达出源文本的含义。将脱离了文章语境的提取信息拼接在一起可能会导致对后语的误解(导致源信息的不准确表示,即低保真度)。在具有时态差异的语言中(如英语等),时态表达式
7、也存在类似的问题,并且这些问题在多文档摘要提取任务中会变得更加严重,因为摘要来自不同的来源,很容易造成时态的混乱。解决这些问题的一般方法包括后处理摘要,例如,用先行词代替代词,明确相对关系。9.1.1 抽取式摘要 数据集常见的抽取式文本摘要数据集为DUC数据集和NYT数据集DUC数据集为单句摘要数据集,将长文本生成一句摘要,分为DUC2003和DUC2004。DUC2003包含624文档-摘要对。DUC2004包含500文档-摘要对,DUC2004文档平均35.6个词,摘要平均10.4个词。由DUC数据集规模较小,因此神经网模型往往在其他数据集上进行训练,再在DUC数据集上进行测试。DUC数据
8、集NYT数据集包含了发表于1996至2007年期间的文章,摘要由专家编写而成。该数据集的摘要有时候不是完整的句子,并且长度较短,大约平均40个词语。NYT数据集9.1.1 抽取式摘要 评价指标内部评价方式是一种尝试模拟人对于摘要的评价方式的方案,这种方法关注的是文本本身的意思能否被摘要准确的表述,对于抽取式摘要生成系统来讲,由于摘要内容一定在原文中,因此可以通过文本选择的准确率对系统进行性能评估内部评价方式外部评价方法则往往是引入一个外部任务,基于外部任务的表现对摘要的质量进行评价,例如基于信息检索任务来评价摘要的质量外部评价方式9.1 抽取式摘要基于传统机器学习的抽取式文本摘要生成方法9.1
9、.29.1.3基于深度学习的抽取式文本摘要生成方法技术原理、数据集、评价指标基本介绍9.1.19.1.2 基于传统机器学习的抽取式文本摘要生成方法0504030201基于首句的摘要生成方法基于关键词TF-IDF的方法基于语义相似性聚类的方法基于图论(TextRank)的方法基于可训练分类器的方法06其他统计特征方法9.1.2 基于传统机器学习的抽取式文本摘要生成方法01基于首句的摘要生成方法 一般来说,好的作者常常会在标题和文章开始就表达主题,因此最简单的方法就是抽取文章中的前几句作为摘要。常用的方法为Lead-3,即抽取文章的前三句作为文章的摘要。Lead-3方法虽然简单直接,但却是非常有效
10、的方法。9.1.2 基于传统机器学习的抽取式文本摘要生成方法02基于关键词TF-IDF的方法 当文章围绕某一主题进行陈述时,这个主题相关的关键词可能就会被反复提及,文章中词语出现的频率(Term Frequency,TF)可以视作对词语意义的一种有效衡量。这种重复使用某些词的强调方式可以被认为是“意义”的标志,在一个句子中,当一些词在语境中出现的频率越高,这些词的“意义”就会越大。一般来说,词频统计不打算区分词形,也不关注文章作者的逻辑结构,仅仅只是按照频率降序排列一个清单和一个单词列表。一般在计算中,TF通常会被归一化(一般是词频除以文章总词数),以防止它偏向长的文件。另外需要注意的是,从文
11、章整体来看,一些出现频率很高的通用词语对于主题并没有太大的作用(比如代词、冠词等),反倒是一些出现频率较低的词才能够表达文章的主题,所以单纯使用是TF不合适的。考虑以上情况,可以设计一个词频权重来约束词频的统计结果,权重的设计必须满足:一个词预测主题的能力越强,权重越大;反之,权重越小。在抽取式摘要生成任务中,一些词只是在其中很少的几个句子(段落)中出现,这样的词对文章的主题的作用可能很大,这些词的权重应该设计的较大;而一些代词可能每句话都有,那么这些词的词频或许很高,但是其权重应该很小。这样的权重被称作“逆向文件频率”(Inverse Document Frequency,IDF)。9.1.
12、2 基于传统机器学习的抽取式文本摘要生成方法02基于关键词TF-IDF的方法 TF-IDF是一种成熟的词频统计方法,可以用来评估字词对于一个文本的重要程度。字词的重要性随着它在句子、段落中出现的次数成正比增加,但同时会随着它在整个整个语料库中出现的频率成反比下降,也就是说,一个词语在一篇文章中出现次数越多,同时在所有文档中出现次数越少,越能够代表该文章。基于关键词TF-IDF的抽取式摘要生成方法首先统计得出文本的关键词以及其对应的TF-IDF分数,研究并实现一种评分算法,根据每一个句子所含关键词的数量以及对应分数,对句子进行评分,选择评分高的句子作为摘要的一部分。总结:基于关键词TF-IDF的
13、抽取式摘要生成方法仅关注文本表层的词语分布统计特征,绕过了对文本内含特征的深入理解。虽然没有涉及到文本内容、作者意图等自然语言理解要素,但是从当时软件发展以及硬件算力来看,此方法仍具有较高的研究价值。它是一套完全基于计算机自动计算进行的自然语言处理程序,使程序对语言的理解不再受限于语言的繁杂变化,而只关注其数学统计特征,为后续多种摘要提取方法提出了新的思路。9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法 基于语义相似性聚类的算法在词频的基础上,将词的特征转化为句子特征,加强了句子之间的联系,引入了“语义相似度”等概念,基于识别句子之间的语义关系实现对摘要语句的
14、选择。基于语义相似性聚类方法首先定义了以下三种相似性维度:A.词汇相似度9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法B.词序相似度9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法C.语义相似度9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法总结:基于语义相似性聚类抽取式摘要生成方法首次将“语义”信息引入计算之中,受制于硬件算力的约束,此处的“语义”仍然是基于统计学的表示,而非文本真实的自然语言语义。9.1.2 基于传统机器学习的抽取式文本摘要生成方法04基于图论(TextRank)的方法 如果两
15、个句子有一些共同的词(它们的相似度(余弦)超过了某个阈值),则用一条边连接两个句子。至此,文档被划分为了若干连通子图,连通度越高的图,说明其句子关联性越强,对文本主题的体现越强;而连通度越低的图(或是一些孤立结点),则说明其更多启承接作用,与主题内容关联较弱。而在连通度高的图中,节点的度数越大,说明其相似的句子越多,体现出其“中心句”的地位。9.1.2 基于传统机器学习的抽取式文本摘要生成方法04基于图论(TextRank)的方法总结:基于图论的抽取式摘要生成方法不需要深入的语言知识,也不需要特定领域或语言的注释语料库,这使得它可以高度移植到其他领域、或者其他的语言体系。其构建带权重无向图的思
16、想在其他自然语言处理任务也有广泛应用。9.1.2 基于传统机器学习的抽取式文本摘要生成方法05基于可训练分类器的方法传统的机器学习方法的原理主要将摘要提取问题转化成一个二分类问题。例如给定一组训练文档及其提取摘要,将摘要抽取过程建模为:根据句子所具有的特征,将句子划分为总结句和非总结句。使用可训练分类器进行摘要抽取主要分为3个步骤:数据预处理、向量转化、可训练算法选取与训练。首先对文本进行标准的文本预处理操作,如去停用词、去不合法词;之后通过One-Hot、TF-IDF等方法将文本数据转化为向量数据,选择合适的可训练分类器,如可训练贝叶斯网络、随机森林等,进行训练和分类预测。9.1.2 基于传
17、统机器学习的抽取式文本摘要生成方法06其他统计特征方法 这种方法是基于这样的假设,即出现在文本和个别段落开头位置的句子具有较高的关联度。位置法除了赋予标题正权重外,还根据句子在文本中的序号位置,即在第一段和最后一段,以及作为段落的第一和最后两句,为句子赋予正权重。每个句子的最终位置权重为其标题权重和序数权重之和。这种方法是基于一个假设,即句子的相关性是通过线索词典中某些线索词来计算的。在线索法中,机器可识别的线索是由线索词典提供,句子的权重会受到诸如“重要”、“不可能”和“几乎”等“线索”词的影响。线索方法使用了语料库中预先存储的线索词典。线索词典包括三个子词典:附加词词典,即积极相关的词;负
18、面词词典,即负相关的词;和空词词典,即与线索不相关的空词。每个句子的最终线索权重是它的组成词的线索权重之和。A.线索法B.标题法 在这种方法中,句子的权重被计算为出现在标题和子标题中的所有内容词的总和。标题往往是作者从文章中提炼出来的最能代表本篇文章的短句。一个正文句子如果和文章的标题越相近,则代表他能表达本篇文章中心思想的可能性越大。那么相应的这个句子的“重要程度”也就越高。C.位置法 9.1 抽取式摘要技术原理、数据集、评价指标基本介绍9.1.1基于传统机器学习的抽取式文本摘要生成方法9.1.29.1.3基于深度学习的抽取式文本摘要生成方法9.1.3 基于深度学习的抽取式文本摘要生成方法0
19、201基于全连接的神经网络模型基于循环神经网络(RNN)的端到端神经网络模型9.1.3 基于深度学习的抽取式文本摘要生成方法01基于全连接的神经网络模型 近年来,以深度学习为代表的神经网络技术发展非常迅速,基于神经网络的抽取式摘要生成方法成为一种流行的方法。神经网络方法包括训练神经网络来学习摘要中应该包含的句子类型。经典算法模型的主要设计思想是学习应该包含在总结中句子的固有模式,将摘要抽取问题转化为分类问题。它采用三层前馈神经网络,其已被证明是一种通用的函数逼近器,其结构如图所示:基于全连接的神经网络模型仍然割裂了文本间句子之间的关系,但深度学习的引入替代了传统的机器学习方法,使得语义理解成为
20、可能。而随着计算机算力以及神经网络研究的深入,深度神经网络再次给研究人员带来了新的方向。9.1.3 基于深度学习的抽取式文本摘要生成方法02基于循环神经网络(RNN)的端到端神经网络模型 近年来,循环神经网络及其变形网络(如LSTM、GRU等)被证实在自然语言处理任务中具有较好的表现能力,摘要生成任务也不例外。RNN网络时序信息的加入,使得模型在捕捉文本语义信息的同时,还能够学习文本的结构特征,对于摘要生成任务来说,句子间的架构关系同样对句子的重要程度有引导意义,因此基于RNN网络的深度学习模型在抽取式摘要生成任务中具有重要地位。在诸多RNN抽取式摘要生成模式中,以 Nallapati 等人于
21、2017年提出的模型“SummaRuNNer”表现最为优异,本节将以此模型为例,介绍此类模型的设计思路与训练方法。Nallapati R,Zhai F,Zhou B.SummaRuNNer:a recurrent neural network based sequence model for extractive summarization of documentsC/Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.2017:3075-3081.9.1.3 基于深度学习的抽取式文本摘要生成方法
22、02基于循环神经网络(RNN)的端到端神经网络模型-SummaRuNNer SummaRuNNer模型将摘要抽取视为一个顺序分类问题:每个句子按原始文档顺序访问,模型对该句子是否包含在摘要中做出决策。SummaRuNNer模型使用双向GRU作为构建神经网络的单元,在引入时序信息的同时,减少因序列过长带来的梯度消失影响。另外,为了正确表征句内关系(词序)和句间关系,模型设计了一个双层双向GRU结构(如图所示):词级别GRU(Word Level GRU)和句级别GRU(Sentence Level GRU)。词级别GRU接收每句话的词向量作为输入,最后通过池化等方式生成当前句子的句向量表示,各句
23、直接相互独立;句级别GRU则将词GRU生成的句向量组成一个有序序列作为输入,这样模型可以捕捉句子之间的内在联系,整个文档被建模为双向句级别GRU隐藏状态。之后将每一个句级别GRU隐藏状态送入分类器中进行分类。9.1.3 基于深度学习的抽取式文本摘要生成方法02基于循环神经网络(RNN)的端到端神经网络模型-SummaRuNNer 类似词向量生成句向量的过程,SummaRuNNer模型还将句级别GRU的状态通过池化等汇集方式,生成了一个整体向量来代表文本。在每个句子进行分类时,使用适当的方法将文本向量加入其中(如拼接或注意力机制等),在分类时引入动态全局信息,从全局角度对每个句子是否加入摘要进行
24、决策。总结:SummaRuNNer模型是一种解释性非常强的神经网络模型,在当时达到了最优表现。其将文本分层表示并在预测时加入全局信息的思想具有较强的指导意义,在此之后涌现出的许多优秀的模型都是在此思想的基础上不断进行优化创新。技术原理、数据集、评价指标基本介绍9.2 生成式摘要9.2.1基于语义的生成式文本摘要生成方法9.2.29.2.3基于抽取内容的生成式文本摘要生成方法9.2.1 生成式摘要 技术原理 生成式摘要是通过对原文的理解,借助语言学的方法对原文进行理解和考察。生成式摘要的目的是首先让计算机理解一篇文章,然后计算机自动生成一个概括的摘要,这个摘要可能完全没有出现在原文当中,但是准确
25、的表达了原文想要表达的意思。这种精确传递信息的方式,通常需要更高级的语言理解、生成和压缩技术。优点:与抽取式文本摘要相比,生成式摘要是一种更有效的摘要生成方式,在原理上更接近人进行文本摘要的过程。生成式文本摘要能够自动生成新的句子来表示从文本文档中识别出来的重要信息,无论是从摘要的概括性还是文本流畅度,亦或是其他方面,生成式摘要都要优于抽取式摘要,因此这种方法也更受欢迎。缺点:在历史上,受限于计算机智能发展水平,生成式摘要系统的表现往往不尽如人意,在很长的一段时间里抽取式摘要的效果通常优于生成式9.2.1 生成式摘要 技术原理 理想情况下生成式摘要系统以连贯、易读、语法正确的形式生成所系统总结
展开阅读全文