1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 十 一第 十 一 章章 其 他 研 究 热 点 与 发 展 趋 势 展 望其 他 研 究 热 点 与 发 展 趋 势 展 望目录背景介绍Contents1章节概述2小节介绍3本章总结4背景介绍B A C K G R O U N DONE背景介绍随着近年来人工智能技术的飞速发展,自然语言处理的发展趋势也可谓是“激流勇进”,但在迅猛发展的背后,技术的局限性也日益凸显。研究者们针对这些局限性也在积极探索并提出了不计其数的新方法和研究方向。章节概述C H A P T E R O
2、 V E R V I E WTWO章节概述超大规模预训练网络的基本原理及典型网络代表主流模型压缩方法模型剪枝模型量化模型蒸馏其他自然语言处理热门研究点多模态任务问答系统机器阅读理解小节介绍S E C T I O N I N T R O D U C T I O NTHREE预训练技术,BERT,GPT-2超大规模预训练网络11.1模型压缩方法11.211.3多模态任务的举例与现状11、其他研究热点与发展趋势展望11.4其它热门的研究点模型剪枝,模型量化,模型蒸馏问答系统,机器阅读理解多模态学习,图像-文本多模态任务11.111.1 超大规模预训练网络超大规模预训练网络预训练是通过设计好一个网络结
3、构来做语言模型任务,然后把大量甚至是无穷尽的无标注自然语言文本利用起来,预训练任务把大量语言学知识抽取出来编码到网络结构中,在当前任务带有标注信息的数据有限时,这些先验的语言学特征会对当前任务有极大的特征补充作用。11.1.1 自然语言处理中的预训练技术发展史早期预训练技术词嵌入(Word Embedding)下游任务e.g.QA单词(One-Hot)矩阵Q对应的词嵌入网络参数矩阵11.1.1 自然语言处理中的预训练技术发展史QA使用词嵌入的做法冻结微调词嵌入层网络参数固定不动词嵌入层参数跟着训练新训练集合训练更新效果不佳!无法解决多义词问题ELMo11.1.1 自然语言处理中的预训练技术发展
4、史ELMo预训练过程:单词的Word Embedding+双层双向LSTM网络结构“基于特征(融合)的预训练”缺点!使用LSTM作为特征抽取器特征提取能力远不如Transformer11.1.1 自然语言处理中的预训练技术发展史Generative Pre-Training(GPT)GPT第一阶段利用语言模型进行预训练通过微调的模式解决下游任务“基于微调的模式”第二阶段11.1.2 超大规模预训练网络介绍-BERTBERT(Bidirectional Encoder Representation from Transformers)基于Transformer的双向编码器表示预训练方法的创新用了
5、Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的表征BERT模型结构11.1.2 超大规模预训练网络介绍-BERTBERT的Embedding组成词向量用于区别两种句子通过学习得到加mask的技巧训练过程中随机mask 15%的token最终的损失函数只计算被mask掉的那个token第一步预训练做语言模型深度双向的模型第二步预训练让模型理解两个句子之间的联系11.1.2 超大规模预训练网络介绍-BERT其他任务的BERT参数调整Fine-tunning阶段11.1.3 主流超大规模预训练网络介绍-GPT-2GPT-21024个输入序列位置中
6、的每一个都对应一个位置编码性能稳定、优异有着超大规模的在海量数据集上训练的基于Transformer的巨大模型模型与只带有解码器的Transformer模型类似可以处理最长1024个单词的序列GPT-2位置编码训练后的模型包含两个权值矩阵嵌入矩阵位置编码矩阵11.1.3 主流超大规模预训练网络介绍-GPT-2GPT-2中Transformer模块的处理方式每个Transformer模块的处理方式都是一样的,但每个模块都会维护自己的自注意力层和神经网络层中的权重通过自注意力层处理将其传递给神经网络层模块处理完单词后,将结果向量传入堆栈中的下一个Transformer模块,继续进行计算.最后一个T
7、ransformer模块产生输出后,模型会将输出的向量乘上嵌入矩阵得到词汇表中每个单词对应的注意力得分预训练技术,BERT,GPT-2超大规模预训练网络11.1模型压缩方法11.211.3多模态任务的举例与现状11、其他研究热点与发展趋势展望11.4其它热门的研究点模型剪枝,模型量化,模型蒸馏问答系统,机器阅读理解多模态学习,图像-文本多模态任务11.2 11.2 模型压缩方法模型压缩方法深度学习让自然语言处理任务的性能到达了一个前所未有的高度。但复杂的模型同时带来了高额的存储空间及计算资源消耗,使其较难落实到各个硬件平台。为了解决这些问题,需对模型进行模型压缩以最大限度地减小模型对计算空间和
8、时间的消耗。11.2.1 模型剪枝DNN的过参数化(Over-parameterization)DNN的过参数化:指训练阶段网络需要大量的参数来捕捉数据中的微小信息,而当训练完成并进入预测阶段后,网络通常并不需要这么多的参数。剪裁最不重要的部分思路贪心法考虑参数裁剪对损失的影响考虑对特征输出的可重建性的影响基于的假设(共识)基本思想11.2.1 模型剪枝贪心法(saliency-based方法)按重要性进行排序,之后将不重要的部分去除magnitude-based weight pruning方法按参数(或特征输出)绝对值大小来评估重要性,然后用贪心法对重要性较低的部分进行剪枝结构化剪枝用Gr
9、oup LASSO算法来得到结构化的稀疏权重考虑参数裁剪对损失的影响考虑对特征输出的可重建性的影响最小化裁剪后网络对于特征输出的重建误差缺点!忽略了参数间的相互关系而只能找到局部最优解基于的认知如果对当前层进行裁剪后对后面的输出没有较大影响,则说明裁掉的是不太重要的信息11.2.2 模型量化量化量化模型(Quantized Model)模型加速(Model Acceleration)方法中其中一类方法的总称包括二值化网络(Binary Network)、三值化网络(Ternary Network),深度压缩(Deep Compression)等在硬件上移植非常方便通往高速神经网络最佳的方法,但
10、仍面临实现难度大、准确性不稳定,使用门槛较高的多方面问题一种权值共享的策略一个高度稀疏的有较多共享权值的矩阵量化后的权值张量定点压缩对于非零参数更高的压缩率e.g.Deepcompression11.2.3 模型蒸馏采用的方法通过预先训练好的复杂模型(Teacher model)的最后输出结果来作为先验知识,结合One-Hot label数据,共同指导一个简单的网络(Student model)学习让student学习到teacher的泛化能力迁移学习主要思想目标11.2.3 模型蒸馏常用名词解释原始模型或模型ensembleteacher新模型student用来迁移teacher知识、训练s
11、tudent的数据集合transfer setteacher输出的预测结果(一般是Softmax之后的概率)soft target样本原本的标签hard target蒸馏目标函数中的超参数temperature蒸馏的一种,指student和teacher的结构和尺寸完全一样born-again network防止student的表现被teacher限制,在蒸馏时逐渐减少soft targets的权重teacher annealing11.2.3 模型蒸馏原始模型训练阶段根据目标问题,设计一个大模型或者多个模型集合(N1,N2,Nt)即teacher,然后并行训练集合中的网络精简模型训练阶段11
12、.2.3 模型蒸馏对所有概率向量求取均值作为当前样本最后的概率输出向量并保存精简模型训练阶段设计一个简单网络N0即student并收集简单模型训练数据将收集到的样本输入原始模型(N1,N2,Nt),修改原始模型teacher的Softmax层中温度参数T为一个较大值选取每一个样本在每个原始模型得到其最终的分类概率向量中概率值最大的即为该模型对于当前样本的判定结果标签融合前面收集到的数据定义为样本原本的标签,即hard_target根据公式Target=a*hard_target+b*soft_target(a+b=1),Target最终作为训练数据的标签去训练精简模型预训练技术,BERT,GP
13、T-2超大规模预训练网络11.1模型压缩方法11.211.3多模态任务的举例与现状11、其他研究热点与发展趋势展望11.4其它热门的研究点模型剪枝,模型量化,模型蒸馏问答系统,机器阅读理解多模态学习,图像-文本多模态任务11.3 11.3 其他热门的研究点其他热门的研究点自然语言处理的具体表现形式包括机器翻译、文本摘要、文本分类、文本校对、信息抽取、语音合成、语音识别等。自然语言处理就是要计算机理解自然语言,自然语言处理机制涉及两个流程,包括自然语言理解和自然语言生成。11.3.1 热门研究点介绍-问答系统基于Web信息检索的问答系统(Web Question Answering,WebQA)
14、问答系统信息检索系统的一种高级形式,通过Web搜索或链接知识库等方式,检索到用户问题的答案,并用准确、简洁的自然语言回答用户分类-根据其问题答案的数据来源和回答的方式基于知识库的问答系统(Knowledge Based Question Answering,KBQA)社区问答系统(Community Question Answering,CQA)11.3.1 热门研究点介绍-问答系统基于Web信息检索的问答系统(Web Question Answering,WebQA)分类-根据其问题答案的数据来源和回答的方式基于知识库的问答系统(Knowledge Based Question Answer
15、ing,KBQA)社区问答系统(Community Question Answering,CQA)以搜索引擎为支撑,理解分析用户的问题意图后并在全网范围内搜索相关答案反馈给用户通过结合一些已有的知识库或数据库资源,以及利用非结构化文本的信息,使用信息抽取的方法提取有价值的信息,并构建知识图谱作为问答系统的后台支撑,再结合知识推理等方法为用户提供更深层次语义理解的答案基于社交媒体的问答系统,大多数问题的答案由网友提供,问答系统会检索社交媒体中与用户提问语义相似的问题,并将答案返回给用户e.g.早期的 Ask Jeeves 和 AnswerBus 问答系统11.3.1 热门研究点介绍-问答系统KB
16、QA目前应用最广泛的问答系统之一知识库(Knowledge Base,KB)用于知识管理的一种特殊的数据库,用于相关领域知识的采集、整理及提取表示形式是一个对象模型(object model),通常称为本体,包含一些类、子类和实体常见的知识库有Freebase、DBPedia等一般采用RDF格式对其中的知识进行表示,知识的查询主要采用RDF标准查询语言SPARQL11.3.1 热门研究点介绍-问答系统KBQA目前应用最广泛的问答系统之一知识库(Knowledge Base,KB)用于知识管理的一种特殊的数据库,用于相关领域知识的采集、整理及提取表示形式是一个对象模型(object model)
17、,通常称为本体,包含一些类、子类和实体常见的知识库有Freebase、DBPedia等一般采用RDF格式对其中的知识进行表示,知识的查询主要采用RDF标准查询语言SPARQL11.3.1 热门研究点介绍-问答系统KBQA基本架构包含问句理解、答案信息抽取、答案排序和生成等核心模块11.3.2 热门研究点介绍-机器阅读理解完形填空机器阅读理解(Machine Reading Comprehension,MRC)给定一篇文章以及基于文章的一个问题,让机器在阅读文章后对问题进行作答常见任务主要多项选择片段抽取自由作答将文章中的某些单词隐去,让模型根据上下文判断被隐去的单词最可能是哪个给定一篇文章和一
18、个问题,让模型从多个备选答案中选择一个或多个最有可能是正确答案的选项给定一篇文章和一个问题,让模型从文章中抽取连续的单词序列,并使得该序列尽可能的作为该问题的答案给定一篇文章和一个问题,让模型生成一个单词序列,并使得该序列尽可能的作为该问题的答案11.3.2 热门研究点介绍-机器阅读理解嵌入编码(Embedding)经典机器阅读理解的基本框架特征抽取(Feature Extraction、Encode)文章-问题交互(Context-Question Interaction)答案预测(Answer Prediction)11.3.2 热门研究点介绍-机器阅读理解基于外部知识的机器阅读理解研究趋
19、势带有不能回答的问题的机器阅读理解多条文档机器阅读理解对话式阅读理解相关外部知识的检索及外部知识的融合不能回答的问题的判别、干扰答案的识别等相关文档的检索、噪声文档的干扰、检索得到的文档中没有答案、可能存在多个答案、需要对多条线索进行聚合等对话历史信息的利用、指代消解等预训练技术,BERT,GPT-2超大规模预训练网络11.1模型压缩方法11.211.3多模态任务的举例与现状11、其他研究热点与发展趋势展望11.4其它热门的研究点模型剪枝,模型量化,模型蒸馏问答系统,机器阅读理解多模态学习,图像-文本多模态任务11.4 11.4 多模态任务的举例与现状多模态任务的举例与现状每一种信息的来源或者
20、形式,都可以称为一种模态。例如,人有触觉,听觉,视觉等;信息的媒介,有语音、视频、文字等。以上的每一种都可以称为一种模态。多模态机器学习旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。11.4.1 多模态学习的概念多模态表示学习研究方向模态转化对齐多模态融合协同学习11.4.1 多模态学习的概念多模态表示学习利用多模态之间的互补性,剔除模态间的冗余性,从而学习到更好的特征表示两大研究方向协同表示(Coordinated Representations)联合表示(Joint Representations)将多个模态的信息一
21、起映射到一个统一的多模态向量空间将多模态中的每个模态分别映射到各自的表示空间,但映射后的向量之间满足一定的相关性约束11.4.1 多模态学习的概念模态转化(映射)对齐将一个模态的信息转换为另一个模态的信息模态间转换的难点主观评判性未知结束位很多模态转换问题的效果没有一个比较客观的评判标准,目标函数的确定是非常主观的对来自同一个实例的不同模态信息的子分支/元素寻找对应关系11.4.1 多模态学习的概念多模态融合协同学习联合多个模态的信息,进行目标预测(分类或者回归)按照融合的层次分类feature levelpixel leveldecision levelearlylate分别对应对原始数据进
22、行融合、对抽象的特征进行融合和对决策结果进行融合代表了融合发生在特征抽取的早期和晚期使用一个资源丰富的模态信息来辅助另一个资源相对贫瘠的模态进行学习e.g.迁移学习11.4.2 图像-文本多模态任务举例及研究现状图像描述主体网络结构图像描述(Image Caption)融合计算机视觉、自然语言处理和机器学习的综合问题将深度卷积神经网络(Deep Convolutional Neural Network)和循环神经网络(Recurrent Neural Network)结合图像标注问题11.4.2 图像-文本多模态任务举例及研究现状视觉问答(VQA)给定一张图片和一个与该图片相关的自然语言问题,
23、计算机能产生一个正确的回答融合CV与NLP的技术计算机需要同时学会理解图像和文字融合嵌入方法对图像和问题进行联合编码11.4.2 图像-文本多模态任务举例及研究现状注意力机制让模型动态地调整对输入项各部分的关注度,从而提升模型的“专注力”源于机器翻译问题复合模型设计一种模块化的模型,可根据问题的类型动态组装模块来产生答案使用先验知识库方法11.4.2 图像-文本多模态任务举例及研究现状视觉对话AI代理与人类以自然的会话语言对视觉内容进行有意义的对话具有访问和理解的多轮对话历史需要一个可以组合多个信息源的编码器主体网络结构本章总结C H A P T E R S U M M A R YFOUR本章
24、总结本章首先介绍了超大规模预训练网络的基本原理及典型网络代表,之后从模型剪枝、模型量化及模型蒸馏三个方面讲解了主流模型压缩方法,然后从理解与生成两个方面,汇总介绍了其它自然语言处理热门研究点并介绍了问答系统与机器阅读理解等任务,最后在多模态学习概念的基础之上,介绍了图像-文本多模态任务的任务定义及网络架构。思考题1.请简要地画出BERT的结构示意图,并标注清楚结构模型每一部分代表符号及其代表的意义。2.BERT在数据中随机选择15%的标记,其中80%被换位MASK,10%不变、10%随机替换其他单词,这样做的原因是什么?3.请比较ELMo、GPT、BERT三者之间有什么区别?4.请简述模型剪枝、模型量化、模型蒸馏的原理。5.Bert 采用哪种Normalization结构?LayerNorm和BatchNorm有什么区别,LayerNorm结构有参数吗,参数的作用是什么?6.请简要写出图像描述、视觉问答、视觉对话任务的基本定义及异同。