《自然语言处理》课件新模板第九章摘要生成.pptx

上传人（卖家）：momomo

文档编号：6018320

上传时间：2023-05-22

格式：PPTX

页数：55

大小：1.19MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

15 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《《自然语言处理》课件新模板第九章摘要生成.pptx》由用户（momomo）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 自然语言处理自然语言处理课件新模板第九章摘要生成自然语言处理课件模板第九摘要生成

资源描述：: 1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第九章第九章摘要摘要生成生成目录章节概述Contents1小节介绍2本章总结3ONE章节概述C H A P T E R O V E R V I E W章节概述随着互联网技术的不断发展，网络上的文本数据也呈现出爆炸的趋势，面对如此庞大量级的数据，人工对文本信息进行总结以及摘要提取是非常难实现的。互联网中蕴含着大量信息通常也远远大于我们需要的数量。因此，我们在使用这些信息的过程中经常会出现以下两个问题：A.在大量现有的信息之中寻找与我们的目标相契合的信息片
2、段；B.从大量相关的信息片段中总结出结论或者关键点。在这种背景情况下，对于数据的自动“降维”技术的需求就显得尤为迫切。文本摘要技术旨在利用计算机将大量文本信息简化为包含原文本信息的简短摘要，并保证信息的核心意思不发生缺失或者改变。一个好的摘要系统应该反映不同信息的不同主题，同时尽量减少冗余以极大的提高信息的使用效率，将人们从信息的海洋中解救出来。章节概述文本摘要按照输出的类型分类可以分为抽取式摘要（Extract Summarization）和生成式摘要（Abstract Summarization）。抽取式摘要是指从源文档中抽取关键句或者关键词组成文本的摘要，其特点则是摘要的全部内容均来源于
3、原文。生成式摘要则更接近于人工提取摘要的过程，这种方法允许计算机自行识别文本的特征，然后自行总结出文本的摘要内容，其特点为摘要中可能包含原文中未出现过的词句。章节概述本章将就抽取式与生成式两种摘要抽取方法进行讨论，以时间为主线分别梳理两种方法的历史发展进程与实现方法，最后评析文本摘要领域现有的前沿技术以及该领域的发展趋势与挑战。TWO小节介绍S E C T I O N I N T R O D U C T I O N技术原理、数据集、评价指标基本介绍9.1 抽取式摘要9.1.1基于传统机器学习的抽取式文本摘要生成方法9.1.29.1.3基于深度学习的抽取式文本摘要生成方法9.1.1 抽取式摘要
4、技术原理抽取式文本摘要系统的基本原理是对原始文本中不同的句子或段落进行评估，选择出重要的句子、段落等，组成文本的摘要信息。大多数情况下文本片段重要性的评估是基于对单个或多个混合的表层特征（如单词/短语频率、位置或提示词）来进行的，系统依据这些特征以及相应的规则对文本片段进行打分，从而确定要提取的句子的位置。在这套体系之下，出现的“最为频繁”的内容或者“位置更加有利”（例如，位于段首的句子或者文章的首段）的内容通常会被系统认为是“最重要”的内容。抽取式摘要系统所做的工作是通过某种形式的统计分析绕过了对文本内含特征的深入理解。优点：概念上更加简单、可解释性更好，并且易于实现缺点：最终生成的文本
5、摘要在语义上的连贯性就不那么尽如人意9.1.1 抽取式摘要技术原理抽取式文本摘要大致上可以分为两步：12数据预处理对原文本进行结构化的表示。例如需要进行句子边界识别、停用词消除、词干提取等工作语句重要性评估对影响句子相关性的特征进行确定和计算，然后采用权值学习的方法对这些特征赋权。然后使用Feature-weight方程计算出每个句子的最终得分，并选择排在最前面的句子作为最后的总结。9.1.1 抽取式摘要技术原理抽取式文本摘要来讲主要面临以下几个难点：1.系统抽取出的“重要”的句子往往在长度上要大于原文本的平均句子长度。因此对于摘要来说不重要的部分也会包括进来，占用空间；2.抽取式文本摘要
6、系统原理上是从源文本中抽取一句话作为文本的摘要。但客观事实上，重要或相关的信息通常并非集中于一个中心句中，而是分布在各个句子中。所以提取性的摘要很难捕捉到这些信息（除非摘要足够长，能够容纳所有的句子）；3.如果文本当中存在相互矛盾的信息，例如，涉及到事物的两面性时，抽取式的文本摘要将会很难处理这种信息；单纯的提取式文本摘要系统还会经常导致提取出的摘要整体连贯性差，也就是说系统抽取出来的摘要在我们人类看来不符合基本语法、不通顺或者不能表达出源文本的含义。将脱离了文章语境的提取信息拼接在一起可能会导致对后语的误解（导致源信息的不准确表示，即低保真度）。在具有时态差异的语言中（如英语等），时态表达式
7、也存在类似的问题，并且这些问题在多文档摘要提取任务中会变得更加严重，因为摘要来自不同的来源，很容易造成时态的混乱。解决这些问题的一般方法包括后处理摘要，例如，用先行词代替代词，明确相对关系。9.1.1 抽取式摘要数据集常见的抽取式文本摘要数据集为DUC数据集和NYT数据集DUC数据集为单句摘要数据集，将长文本生成一句摘要，分为DUC2003和DUC2004。DUC2003包含624文档-摘要对。DUC2004包含500文档-摘要对，DUC2004文档平均35.6个词，摘要平均10.4个词。由DUC数据集规模较小，因此神经网模型往往在其他数据集上进行训练，再在DUC数据集上进行测试。DUC数据
8、集NYT数据集包含了发表于1996至2007年期间的文章，摘要由专家编写而成。该数据集的摘要有时候不是完整的句子，并且长度较短，大约平均40个词语。NYT数据集9.1.1 抽取式摘要评价指标内部评价方式是一种尝试模拟人对于摘要的评价方式的方案，这种方法关注的是文本本身的意思能否被摘要准确的表述，对于抽取式摘要生成系统来讲，由于摘要内容一定在原文中，因此可以通过文本选择的准确率对系统进行性能评估内部评价方式外部评价方法则往往是引入一个外部任务，基于外部任务的表现对摘要的质量进行评价，例如基于信息检索任务来评价摘要的质量外部评价方式9.1 抽取式摘要基于传统机器学习的抽取式文本摘要生成方法9.1
9、.29.1.3基于深度学习的抽取式文本摘要生成方法技术原理、数据集、评价指标基本介绍9.1.19.1.2 基于传统机器学习的抽取式文本摘要生成方法0504030201基于首句的摘要生成方法基于关键词TF-IDF的方法基于语义相似性聚类的方法基于图论（TextRank）的方法基于可训练分类器的方法06其他统计特征方法9.1.2 基于传统机器学习的抽取式文本摘要生成方法01基于首句的摘要生成方法一般来说，好的作者常常会在标题和文章开始就表达主题，因此最简单的方法就是抽取文章中的前几句作为摘要。常用的方法为Lead-3，即抽取文章的前三句作为文章的摘要。Lead-3方法虽然简单直接，但却是非常有效
10、的方法。9.1.2 基于传统机器学习的抽取式文本摘要生成方法02基于关键词TF-IDF的方法当文章围绕某一主题进行陈述时，这个主题相关的关键词可能就会被反复提及，文章中词语出现的频率（Term Frequency,TF）可以视作对词语意义的一种有效衡量。这种重复使用某些词的强调方式可以被认为是“意义”的标志，在一个句子中，当一些词在语境中出现的频率越高，这些词的“意义”就会越大。一般来说，词频统计不打算区分词形，也不关注文章作者的逻辑结构，仅仅只是按照频率降序排列一个清单和一个单词列表。一般在计算中，TF通常会被归一化（一般是词频除以文章总词数），以防止它偏向长的文件。另外需要注意的是，从文
11、章整体来看，一些出现频率很高的通用词语对于主题并没有太大的作用（比如代词、冠词等），反倒是一些出现频率较低的词才能够表达文章的主题，所以单纯使用是TF不合适的。考虑以上情况，可以设计一个词频权重来约束词频的统计结果，权重的设计必须满足：一个词预测主题的能力越强，权重越大；反之，权重越小。在抽取式摘要生成任务中，一些词只是在其中很少的几个句子（段落）中出现，这样的词对文章的主题的作用可能很大，这些词的权重应该设计的较大；而一些代词可能每句话都有，那么这些词的词频或许很高，但是其权重应该很小。这样的权重被称作“逆向文件频率”（Inverse Document Frequency,IDF）。9.1.
12、2 基于传统机器学习的抽取式文本摘要生成方法02基于关键词TF-IDF的方法 TF-IDF是一种成熟的词频统计方法，可以用来评估字词对于一个文本的重要程度。字词的重要性随着它在句子、段落中出现的次数成正比增加，但同时会随着它在整个整个语料库中出现的频率成反比下降，也就是说，一个词语在一篇文章中出现次数越多，同时在所有文档中出现次数越少，越能够代表该文章。基于关键词TF-IDF的抽取式摘要生成方法首先统计得出文本的关键词以及其对应的TF-IDF分数，研究并实现一种评分算法，根据每一个句子所含关键词的数量以及对应分数，对句子进行评分，选择评分高的句子作为摘要的一部分。总结：基于关键词TF-IDF的
13、抽取式摘要生成方法仅关注文本表层的词语分布统计特征，绕过了对文本内含特征的深入理解。虽然没有涉及到文本内容、作者意图等自然语言理解要素，但是从当时软件发展以及硬件算力来看，此方法仍具有较高的研究价值。它是一套完全基于计算机自动计算进行的自然语言处理程序，使程序对语言的理解不再受限于语言的繁杂变化，而只关注其数学统计特征，为后续多种摘要提取方法提出了新的思路。9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法基于语义相似性聚类的算法在词频的基础上，将词的特征转化为句子特征，加强了句子之间的联系，引入了“语义相似度”等概念，基于识别句子之间的语义关系实现对摘要语句的
14、选择。基于语义相似性聚类方法首先定义了以下三种相似性维度：A.词汇相似度9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法B.词序相似度9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法C.语义相似度9.1.2 基于传统机器学习的抽取式文本摘要生成方法03基于语义相似性聚类的方法总结：基于语义相似性聚类抽取式摘要生成方法首次将“语义”信息引入计算之中，受制于硬件算力的约束，此处的“语义”仍然是基于统计学的表示，而非文本真实的自然语言语义。9.1.2 基于传统机器学习的抽取式文本摘要生成方法04基于图论（TextRank）的方法如果两
15、个句子有一些共同的词（它们的相似度（余弦）超过了某个阈值），则用一条边连接两个句子。至此，文档被划分为了若干连通子图，连通度越高的图，说明其句子关联性越强，对文本主题的体现越强；而连通度越低的图（或是一些孤立结点），则说明其更多启承接作用，与主题内容关联较弱。而在连通度高的图中，节点的度数越大，说明其相似的句子越多，体现出其“中心句”的地位。9.1.2 基于传统机器学习的抽取式文本摘要生成方法04基于图论（TextRank）的方法总结：基于图论的抽取式摘要生成方法不需要深入的语言知识，也不需要特定领域或语言的注释语料库，这使得它可以高度移植到其他领域、或者其他的语言体系。其构建带权重无向图的思
16、想在其他自然语言处理任务也有广泛应用。9.1.2 基于传统机器学习的抽取式文本摘要生成方法05基于可训练分类器的方法传统的机器学习方法的原理主要将摘要提取问题转化成一个二分类问题。例如给定一组训练文档及其提取摘要，将摘要抽取过程建模为：根据句子所具有的特征，将句子划分为总结句和非总结句。使用可训练分类器进行摘要抽取主要分为3个步骤：数据预处理、向量转化、可训练算法选取与训练。首先对文本进行标准的文本预处理操作，如去停用词、去不合法词；之后通过One-Hot、TF-IDF等方法将文本数据转化为向量数据，选择合适的可训练分类器，如可训练贝叶斯网络、随机森林等，进行训练和分类预测。9.1.2 基于传
17、统机器学习的抽取式文本摘要生成方法06其他统计特征方法这种方法是基于这样的假设，即出现在文本和个别段落开头位置的句子具有较高的关联度。位置法除了赋予标题正权重外，还根据句子在文本中的序号位置，即在第一段和最后一段，以及作为段落的第一和最后两句，为句子赋予正权重。每个句子的最终位置权重为其标题权重和序数权重之和。这种方法是基于一个假设，即句子的相关性是通过线索词典中某些线索词来计算的。在线索法中，机器可识别的线索是由线索词典提供，句子的权重会受到诸如“重要”、“不可能”和“几乎”等“线索”词的影响。线索方法使用了语料库中预先存储的线索词典。线索词典包括三个子词典：附加词词典，即积极相关的词；负
18、面词词典，即负相关的词；和空词词典，即与线索不相关的空词。每个句子的最终线索权重是它的组成词的线索权重之和。A.线索法B.标题法在这种方法中，句子的权重被计算为出现在标题和子标题中的所有内容词的总和。标题往往是作者从文章中提炼出来的最能代表本篇文章的短句。一个正文句子如果和文章的标题越相近，则代表他能表达本篇文章中心思想的可能性越大。那么相应的这个句子的“重要程度”也就越高。C.位置法 9.1 抽取式摘要技术原理、数据集、评价指标基本介绍9.1.1基于传统机器学习的抽取式文本摘要生成方法9.1.29.1.3基于深度学习的抽取式文本摘要生成方法9.1.3 基于深度学习的抽取式文本摘要生成方法0
19、201基于全连接的神经网络模型基于循环神经网络（RNN）的端到端神经网络模型9.1.3 基于深度学习的抽取式文本摘要生成方法01基于全连接的神经网络模型近年来，以深度学习为代表的神经网络技术发展非常迅速，基于神经网络的抽取式摘要生成方法成为一种流行的方法。神经网络方法包括训练神经网络来学习摘要中应该包含的句子类型。经典算法模型的主要设计思想是学习应该包含在总结中句子的固有模式，将摘要抽取问题转化为分类问题。它采用三层前馈神经网络，其已被证明是一种通用的函数逼近器，其结构如图所示：基于全连接的神经网络模型仍然割裂了文本间句子之间的关系，但深度学习的引入替代了传统的机器学习方法，使得语义理解成为
20、可能。而随着计算机算力以及神经网络研究的深入，深度神经网络再次给研究人员带来了新的方向。9.1.3 基于深度学习的抽取式文本摘要生成方法02基于循环神经网络（RNN）的端到端神经网络模型近年来，循环神经网络及其变形网络（如LSTM、GRU等）被证实在自然语言处理任务中具有较好的表现能力，摘要生成任务也不例外。RNN网络时序信息的加入，使得模型在捕捉文本语义信息的同时，还能够学习文本的结构特征，对于摘要生成任务来说，句子间的架构关系同样对句子的重要程度有引导意义，因此基于RNN网络的深度学习模型在抽取式摘要生成任务中具有重要地位。在诸多RNN抽取式摘要生成模式中，以 Nallapati 等人于
21、2017年提出的模型“SummaRuNNer”表现最为优异，本节将以此模型为例，介绍此类模型的设计思路与训练方法。Nallapati R,Zhai F,Zhou B.SummaRuNNer:a recurrent neural network based sequence model for extractive summarization of documentsC/Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence.2017:3075-3081.9.1.3 基于深度学习的抽取式文本摘要生成方法
22、02基于循环神经网络（RNN）的端到端神经网络模型-SummaRuNNer SummaRuNNer模型将摘要抽取视为一个顺序分类问题：每个句子按原始文档顺序访问，模型对该句子是否包含在摘要中做出决策。SummaRuNNer模型使用双向GRU作为构建神经网络的单元，在引入时序信息的同时，减少因序列过长带来的梯度消失影响。另外，为了正确表征句内关系（词序）和句间关系，模型设计了一个双层双向GRU结构（如图所示）：词级别GRU（Word Level GRU）和句级别GRU（Sentence Level GRU）。词级别GRU接收每句话的词向量作为输入，最后通过池化等方式生成当前句子的句向量表示，各句
23、直接相互独立；句级别GRU则将词GRU生成的句向量组成一个有序序列作为输入，这样模型可以捕捉句子之间的内在联系，整个文档被建模为双向句级别GRU隐藏状态。之后将每一个句级别GRU隐藏状态送入分类器中进行分类。9.1.3 基于深度学习的抽取式文本摘要生成方法02基于循环神经网络（RNN）的端到端神经网络模型-SummaRuNNer 类似词向量生成句向量的过程，SummaRuNNer模型还将句级别GRU的状态通过池化等汇集方式，生成了一个整体向量来代表文本。在每个句子进行分类时，使用适当的方法将文本向量加入其中（如拼接或注意力机制等），在分类时引入动态全局信息，从全局角度对每个句子是否加入摘要进行
24、决策。总结：SummaRuNNer模型是一种解释性非常强的神经网络模型，在当时达到了最优表现。其将文本分层表示并在预测时加入全局信息的思想具有较强的指导意义，在此之后涌现出的许多优秀的模型都是在此思想的基础上不断进行优化创新。技术原理、数据集、评价指标基本介绍9.2 生成式摘要9.2.1基于语义的生成式文本摘要生成方法9.2.29.2.3基于抽取内容的生成式文本摘要生成方法9.2.1 生成式摘要技术原理生成式摘要是通过对原文的理解，借助语言学的方法对原文进行理解和考察。生成式摘要的目的是首先让计算机理解一篇文章，然后计算机自动生成一个概括的摘要，这个摘要可能完全没有出现在原文当中，但是准确
25、的表达了原文想要表达的意思。这种精确传递信息的方式，通常需要更高级的语言理解、生成和压缩技术。优点：与抽取式文本摘要相比，生成式摘要是一种更有效的摘要生成方式，在原理上更接近人进行文本摘要的过程。生成式文本摘要能够自动生成新的句子来表示从文本文档中识别出来的重要信息，无论是从摘要的概括性还是文本流畅度，亦或是其他方面，生成式摘要都要优于抽取式摘要，因此这种方法也更受欢迎。缺点：在历史上，受限于计算机智能发展水平，生成式摘要系统的表现往往不尽如人意，在很长的一段时间里抽取式摘要的效果通常优于生成式9.2.1 生成式摘要技术原理理想情况下生成式摘要系统以连贯、易读、语法正确的形式生成所系统总结
26、的信息，根据原理的不同可以将目前主流的生成式文本摘要技术分为三类：A.基于结构的生成式摘要方法结构化的方法主要通过构建完善的先验知识，如模板、提取规则和其他结构，对文档中最重要的数据进行编码解码，依靠知识库生成文本摘要，摘要生成质量的高低主要取决于先验知识或知识库是否完备。基于结构的生成式摘要方法需要根据不同的数据设计不同的规则，人工成本较高，且摘要质量较差，随着神经网络的发展，基于结构的生成方法逐渐被深度神经网络模型所取代。B.基于语义的生成式摘要方法基于语义的生成方法主要依靠成熟的NLP技术与神经网络。在基于语义的技术中，文献被输入到神经网络模型中供模型学习语言学特征，依靠生成模型实现
27、文本的编码和译码，根据学习的文本信息进行摘要生成。C.基于抽取内容的生成式摘要方法随着近年来深度学习的不断发展，神经网络模型对于文本信息的理解与处理能力逐渐增强，研究人员提出一种新的摘要抽取思想“先抽取，再改写”。基于抽取内容的生成式摘要方法即先对文本内容进行抽取，选出关键内容信息，再在关键内容的基础上进行内容改写，使生成的摘要更具概括性和可读性。9.2.1 生成式摘要技术原理生成式文本摘要来讲主要面临以下几个难点：1.“未登录词”问题（OOV）。解码器每一步的输出实际上是在一个确定的词表中进行多分类决策，决定当前时刻输出哪一个单词。词表的个数总是有限的，当某一时刻，摘要的真实单词不在当前
28、词表中时，解码器便无法进行正确预测，同时在训练时也无法正确学习。OOV问题是所有生成任务都要面临的难题，在其他生产任务如机器翻译中，由于目标语言和源语言不同，解码器只能依靠自身解决OOV问题；但是在摘要生成任务中，源文本提供了大量与主题相关的词汇，解码器建立与原文本之间的联系或许是解决OOV问题的有效途径之一。2.重复生成问题。生成任务另一个常见的问题就是词语重复生成问题，由于解码器每一步预测是独立的，解码器总会不可避免的对某一个词语重复生成多次，降低生成文本的质量与可读性。目前重复生成问题还没有好的解决办法，可以通过一些强制性规则限制模型重复次数。9.2.1 生成式摘要数据集常见的生成式文
29、本摘要数据集为CNN/Daily Mail数据集 CNN/Daily Mail数据集，属于多句摘要数据集。该数据集从问答任务的数据集修改得到，训练集包括286817对，开发集包括13368对，测试集包括11487对。其中训练数据集文章平均766个词，29.74句话，摘要平均53个词，3.72句话。该数据集一共有两个版本，匿名（Anonymized）版本和未匿名（Non-anonymized）版本，未匿名版本包括了真实的实体名（Entity names），匿名版本将实体使用特定的索引进行替换。CNN/Daily Mail数据集9.2.1 生成式摘要评价指标生成式摘要任务采用生成任务常用的一种
30、基于召回率的相似性度量方法ROUGE（Recall-Oriented Understudy for Gisting Evaluation），对生成文本的质量进行评估。这种方法最常见于机器翻译中对翻译文本的评估，考察翻译的充分性和忠实性。在摘要任务中，它通过将自动生成的摘要与一组参考摘要（通常是人工生成的）进行比较计算，得出相应的分值，以衡量自动生成的摘要与参考摘要之间的“相似度”。用于文本摘要的评价指标主要有ROUGE-1、ROUGE-2、ROUGE-L三个指标，其计算分别涉及Uni-gram、Bi-gram和Longest common sub-sequence。技术原理、数据集、评价指标基
31、本介绍9.2 生成式摘要9.2.1基于语义的生成式文本摘要生成方法9.2.29.2.3基于抽取内容的生成式文本摘要生成方法9.2.2 基于语义的生成式文本摘要生成方法030201基于卷积门单元的编码器创新带指针的解码器优化其他方向的优化方法目前主流的生成式文本摘要模型是由Seq2Seq架构编码器和解码器组成：编码器负责将输入文本编码成一个向量，作为原文本的表征，该向量包含了文本的上下文信息；而解码器从该向量提取重要信息，并进行剪辑加工，生成文本摘要。本节将介绍几种不同的模型，它们分别在编码器和解码器进行了优化和创新：9.2.2 基于语义的生成式文本摘要生成方法01基于卷积门单元的编码器创新
32、通常情况下，编码器使用一个双向RNN（或LSTM、GRU）网络接收整个文本作为输入，并将RNN最后一个单元的状态作为该文本的表征。对模型来说，文本的每一个词是平等的，不会因为某些片段是文章的中心思想而“重点关照”。但事实上，这与人类进行摘要总结思路相违背，在人对一篇文章进行摘要总结时，往往先提取一些表达文章主题的重点关键词和关键语句，然后对文章进行汇总描述。因此，Lin等人于2018年提出“CGU”模型，就是加强了模型对重点内容的关注度。Lin J,Sun X,Ma S,et al.Global Encoding for Abstractive SummarizationC/Proceedin
33、gs of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).2018:163-169.9.2.2 基于语义的生成式文本摘要生成方法01基于卷积门单元的编码器创新 CGU模型引入了CNN结构实现对文章重点区域的捕捉。CGU是“Convolutional Gated Unit”的简称，该模型将所有RNN的状态聚合成一个矩阵，并在此矩阵上输入到一个多层CNN架构（如图所示）中，通过不同尺寸的卷积核捕捉文章重点信息，并将最终生成的向量输入到解码器中进行摘要生成
34、。CGU模型是典型的对编码器进行优化的摘要生成模型，强化了编码器对文本信息重点信息的关注程度，使编码器能够根据文章主题的不同动态变化模型的关注重点，增强模型对文章主题内容的理解能力，从而使解码时能够更准确的生成摘要信息。Lin J,Sun X,Ma S,et al.Global Encoding for Abstractive SummarizationC/Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).2018:163-
35、169.9.2.2 基于语义的生成式文本摘要生成方法在摘要生成任务中，如果文章在某一领域足够深入，文章内容的领域专业性较强，那么输出词库可能会遇见“未登录词”问题（Out of Vocabulary,OOV）：即没有一个准确的词来描述当前的状态。因此，如果解码器可以在每一步生成单词的时对原文内容进行参考，适当引入原文，则可以很大程度的提高摘要的生成质量，并解决OOV问题。See A,Liu P J,Manning C D.Get To The Point:Summarization with Pointer-Generator NetworksC/Proceedings of the 55t
36、h Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:1073-1083.02带指针的解码器优化9.2.2 基于语义的生成式文本摘要生成方法 Abigail等人于2018年设计的带指针的解码器模型（PGN）解决了上述问题。PGN模型加入了一个“指针”（Pointer），使用Sigmoid作为激活函数的可训练门，接收当前时刻解码器的状态和过去编码器的状态作为输入，计算出一个Sigmoid值，把pointer门看作一个权重，模型将原编码器每个词的分布以及解码器得出预测
37、词的分布以pointer权重的方式结合，获得一个新的单词预测分布，这样模型便实现了在原文和词库中同时预测。See A,Liu P J,Manning C D.Get To The Point:Summarization with Pointer-Generator NetworksC/Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:1073-1083.02带指针的解码器优化9.2.2 基于语义的生成式文本摘要生成方
38、法See A,Liu P J,Manning C D.Get To The Point:Summarization with Pointer-Generator NetworksC/Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:1073-1083.02带指针的解码器优化9.2.2 基于语义的生成式文本摘要生成方法See A,Liu P J,Manning C D.Get To The Point:Summariz
39、ation with Pointer-Generator NetworksC/Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2017:1073-1083.02带指针的解码器优化9.2.2 基于语义的生成式文本摘要生成方法除了上述的思路外，还有许多有效的创新方法参考借鉴。如：A.SummaRuNNer 模型的作者将抽取式模型的文本表征方式也应用于生成模型的编码器中，通过分层的方式提高编码器对长文本的理解能力 B.Liu Y
40、,Zhong S,Li W.Query-oriented multi-document summarization via unsupervised deep learningC/Twenty-Sixth AAAI Conference on Artificial Intelligence.2012.该论文提出一种强化学习方式，通过强化学习激励机制来帮助模型学习摘要生成 C.Ma S,Sun X,Lin J,et al.Autoencoder as Assistant Supervisor:Improving Text Representation for Chinese Social Med
41、ia Text SummarizationC/Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 2:Short Papers).2018:725-731.该论文在编码器-解码器训练时，加入了真实摘要的编码器实现一种“对抗”思想，帮助模型更精准的进行摘要生成03其他方向的优化方法技术原理、数据集、评价指标基本介绍9.2 生成式摘要9.2.1基于语义的生成式文本摘要生成方法9.2.29.2.3基于抽取内容的生成式文本摘要生成方法9.2.3 基于抽取内容的生成式
42、文本摘要生成方法基于抽取内容的生成式文本摘要方法最初是由Gehrmann等人于2018年提出。该方法提出一种“自下而上”的文本摘要生成方法：首先应用抽取式文本摘要方法对关键语句进行抽取，精简文本内容信息；随后对抽取出的关键内容进行改写，生成高质量的摘要文本。基于抽取内容的生成式文本摘要思想较为新颖，逐渐成为一个热门的研究分支，有关文献可供参考：A.Gehrmann S,Deng Y,Rush A M.Bottom-Up Abstractive SummarizationC/Proceedings of the 2018 Conference on Empirical Methods in N
43、atural Language Processing.2018:4098-4109.将内容选择部分建模为词语级别的序列标注任务，将训练数据通过摘要对齐到文档，得到每个词语的标签（是否在摘要中），通过内容选择来决定生成模型关注的部分，然后使用PGN网络进行文本生成9.2.3 基于抽取内容的生成式文本摘要生成方法B.Li C,Xu W,Li S,et al.Guiding generation for abstractive text summarization based on key information guide networkC/Proceedings of the 2018 Conf
44、erence of the North American Chapter of the Association for Computational Linguistics:Human Language Technologies,Volume 2(Short Papers).2018:55-60.提出了TextRank算法生成关键词，将其与PGN网络相结合生成文本摘要C.Li W,Xiao X,Lyu Y,et al.Improving neural abstractive document summarization with explicit information selection mo
45、delingC/Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing.2018:1787-1796.提出使用门控机制，从编码得到的向量表示中选择有用的信息用于之后的摘要生成。在使用层次化编码器得到句子级别的向量表示之后，使用一种门控机制，得到新的句子级别向量，表示从中选择有用信息D.Hsu W T,Lin C K,Lee M Y,et al.A Unified Model for Extractive and Abstractive Summarization using I
46、nconsistency LossC/Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics(Volume 1:Long Papers).2018:132-141.将抽取式模型的输出概率作为句子级别的注意力权重，用该权重来调整生成式模型中的词语级别的注意力权重，当词语级别的注意力权重高时，句子级别的注意力权重也高。基于此想法提出了“矛盾性损失函数”（Inconsistency Loss），使得模型输出的句子级别的权重和词语级别的权重尽量一致。在最终训练时，首先分别预训练抽取式
47、和生成式模型，之后将抽取式模型抽取的关键语句直接作为生成式模型的输入9.3 前沿技术、发展趋势与挑战自动文摘是自然语言处理领域的一个重要研究方向，近60年持续性的研究已经在部分自动文摘任务上取得了明显进展，特别是BERT模型的问世，打破了多项自然语言理解任务的最好成绩，如今许多抽取式摘要模型以及生成式模型的编码器部分都会选择BERT作为文本特征抽取模块。自然语言理解迎来了突破式的进展，但在文本摘要领域，特别是生成式文本摘要领域，仍需突破很多关键技术，才能提高其应用价值、扩大其应用范围。展望未来，以下研究方向或问题值得关注：A.多语言自动文摘资源建设目前的自动文摘资源总体上偏少，无论是数据还
48、是工具与系统。一方面会影响评测结果的准确性，另一方面也无法为有监督学习方法尤其是深度学习方法提供充足的训练数据。业界需要投入更多的人力物力来建设多语言自动文摘资源。B.基于自然语言生成的自动文摘生成式摘要方法更符合人类撰写摘要的习惯，但自然语言生成技术的复杂性和不成熟阻碍了生成式摘要方法的研究进展。深度学习技术在自然语言生成问题上的逐步应用给生成式摘要带来了希望和机遇，未来几年将会有越来越多的研究者基于深度学习技术从事生成式摘要方法的研究，也有望取得重要进展。9.3 前沿技术、发展趋势与挑战自动文摘是自然语言处理领域的一个重要研究方向，近60年持续性的研究已经在部分自动文摘任务上取得了明显
49、进展，特别是BERT模型的问世，打破了多项自然语言理解任务的最好成绩，如今许多抽取式摘要模型以及生成式模型的编码器部分都会选择BERT作为文本特征抽取模块。自然语言理解迎来了突破式的进展，但在文本摘要领域，特别是生成式文本摘要领域，仍需突破很多关键技术，才能提高其应用价值、扩大其应用范围。展望未来，以下研究方向或问题值得关注：C.面向复杂问题回答的自动摘要基于关键词检索的搜索引擎正在逐步向基于自然语言检索的问答引擎过渡。而对于很多种类的问题，并不适合使用简单的一两个短语作答。比如搜索引擎用户时常需要进行对定义（“是什么”）、原因（“为什么”）、步骤（“怎么做”）、观点（“怎么样”）等方面的查
50、询。与只需少量简单实体作答的事实型问题相对，这一类问题往被称为非事实型问题或复杂问题。相对完整地回答非事实型问题需要对单个文档甚至多个相关文档中的部分内容进行提取、聚合与总结。由于非事实型问答固有的困难性，相关研究在学术圈进展缓慢，期待未来有更多的研究者敢于迎接此项挑战。本章总结C H A P T E R S U M M A R YTHREE本章总结文本摘要技术旨在对信息系进行自动“降维”，将大量文本信息简化为包含原文本信息的简短摘要，而保证信息的核心意思不发生缺失或者改变。文本摘要按照输出的类型分类可以分为抽取式摘要和生成式摘要。抽取式摘要以从原文本中选取句子为主要思路，主要有基于传统机器

展开阅读全文