《自然语言处理》课件新模板 第十一章 其他研究热点与发展趋势展望.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《自然语言处理》课件新模板 第十一章 其他研究热点与发展趋势展望.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 自然语言处理 自然语言处理课件新模板 第十一章 其他研究热点与发展趋势展望 自然语言 处理 课件 模板 第十一 其他 研究 热点 发展趋势 展望
- 资源描述:
-
1、自然语言处理自然语言处理N a t u r a l L a n g u a g e P r o c e s s i n g第 十 一第 十 一 章章 其 他 研 究 热 点 与 发 展 趋 势 展 望其 他 研 究 热 点 与 发 展 趋 势 展 望目录背景介绍Contents1章节概述2小节介绍3本章总结4背景介绍B A C K G R O U N DONE背景介绍随着近年来人工智能技术的飞速发展,自然语言处理的发展趋势也可谓是“激流勇进”,但在迅猛发展的背后,技术的局限性也日益凸显。研究者们针对这些局限性也在积极探索并提出了不计其数的新方法和研究方向。章节概述C H A P T E R O
2、 V E R V I E WTWO章节概述超大规模预训练网络的基本原理及典型网络代表主流模型压缩方法模型剪枝模型量化模型蒸馏其他自然语言处理热门研究点多模态任务问答系统机器阅读理解小节介绍S E C T I O N I N T R O D U C T I O NTHREE预训练技术,BERT,GPT-2超大规模预训练网络11.1模型压缩方法11.211.3多模态任务的举例与现状11、其他研究热点与发展趋势展望11.4其它热门的研究点模型剪枝,模型量化,模型蒸馏问答系统,机器阅读理解多模态学习,图像-文本多模态任务11.111.1 超大规模预训练网络超大规模预训练网络预训练是通过设计好一个网络结
3、构来做语言模型任务,然后把大量甚至是无穷尽的无标注自然语言文本利用起来,预训练任务把大量语言学知识抽取出来编码到网络结构中,在当前任务带有标注信息的数据有限时,这些先验的语言学特征会对当前任务有极大的特征补充作用。11.1.1 自然语言处理中的预训练技术发展史早期预训练技术词嵌入(Word Embedding)下游任务e.g.QA单词(One-Hot)矩阵Q对应的词嵌入网络参数矩阵11.1.1 自然语言处理中的预训练技术发展史QA使用词嵌入的做法冻结微调词嵌入层网络参数固定不动词嵌入层参数跟着训练新训练集合训练更新效果不佳!无法解决多义词问题ELMo11.1.1 自然语言处理中的预训练技术发展
4、史ELMo预训练过程:单词的Word Embedding+双层双向LSTM网络结构“基于特征(融合)的预训练”缺点!使用LSTM作为特征抽取器特征提取能力远不如Transformer11.1.1 自然语言处理中的预训练技术发展史Generative Pre-Training(GPT)GPT第一阶段利用语言模型进行预训练通过微调的模式解决下游任务“基于微调的模式”第二阶段11.1.2 超大规模预训练网络介绍-BERTBERT(Bidirectional Encoder Representation from Transformers)基于Transformer的双向编码器表示预训练方法的创新用了
5、Masked LM和Next Sentence Prediction两种方法分别捕捉词语和句子级别的表征BERT模型结构11.1.2 超大规模预训练网络介绍-BERTBERT的Embedding组成词向量用于区别两种句子通过学习得到加mask的技巧训练过程中随机mask 15%的token最终的损失函数只计算被mask掉的那个token第一步预训练做语言模型深度双向的模型第二步预训练让模型理解两个句子之间的联系11.1.2 超大规模预训练网络介绍-BERT其他任务的BERT参数调整Fine-tunning阶段11.1.3 主流超大规模预训练网络介绍-GPT-2GPT-21024个输入序列位置中
6、的每一个都对应一个位置编码性能稳定、优异有着超大规模的在海量数据集上训练的基于Transformer的巨大模型模型与只带有解码器的Transformer模型类似可以处理最长1024个单词的序列GPT-2位置编码训练后的模型包含两个权值矩阵嵌入矩阵位置编码矩阵11.1.3 主流超大规模预训练网络介绍-GPT-2GPT-2中Transformer模块的处理方式每个Transformer模块的处理方式都是一样的,但每个模块都会维护自己的自注意力层和神经网络层中的权重通过自注意力层处理将其传递给神经网络层模块处理完单词后,将结果向量传入堆栈中的下一个Transformer模块,继续进行计算.最后一个T
7、ransformer模块产生输出后,模型会将输出的向量乘上嵌入矩阵得到词汇表中每个单词对应的注意力得分预训练技术,BERT,GPT-2超大规模预训练网络11.1模型压缩方法11.211.3多模态任务的举例与现状11、其他研究热点与发展趋势展望11.4其它热门的研究点模型剪枝,模型量化,模型蒸馏问答系统,机器阅读理解多模态学习,图像-文本多模态任务11.2 11.2 模型压缩方法模型压缩方法深度学习让自然语言处理任务的性能到达了一个前所未有的高度。但复杂的模型同时带来了高额的存储空间及计算资源消耗,使其较难落实到各个硬件平台。为了解决这些问题,需对模型进行模型压缩以最大限度地减小模型对计算空间和
8、时间的消耗。11.2.1 模型剪枝DNN的过参数化(Over-parameterization)DNN的过参数化:指训练阶段网络需要大量的参数来捕捉数据中的微小信息,而当训练完成并进入预测阶段后,网络通常并不需要这么多的参数。剪裁最不重要的部分思路贪心法考虑参数裁剪对损失的影响考虑对特征输出的可重建性的影响基于的假设(共识)基本思想11.2.1 模型剪枝贪心法(saliency-based方法)按重要性进行排序,之后将不重要的部分去除magnitude-based weight pruning方法按参数(或特征输出)绝对值大小来评估重要性,然后用贪心法对重要性较低的部分进行剪枝结构化剪枝用Gr
9、oup LASSO算法来得到结构化的稀疏权重考虑参数裁剪对损失的影响考虑对特征输出的可重建性的影响最小化裁剪后网络对于特征输出的重建误差缺点!忽略了参数间的相互关系而只能找到局部最优解基于的认知如果对当前层进行裁剪后对后面的输出没有较大影响,则说明裁掉的是不太重要的信息11.2.2 模型量化量化量化模型(Quantized Model)模型加速(Model Acceleration)方法中其中一类方法的总称包括二值化网络(Binary Network)、三值化网络(Ternary Network),深度压缩(Deep Compression)等在硬件上移植非常方便通往高速神经网络最佳的方法,但
10、仍面临实现难度大、准确性不稳定,使用门槛较高的多方面问题一种权值共享的策略一个高度稀疏的有较多共享权值的矩阵量化后的权值张量定点压缩对于非零参数更高的压缩率e.g.Deepcompression11.2.3 模型蒸馏采用的方法通过预先训练好的复杂模型(Teacher model)的最后输出结果来作为先验知识,结合One-Hot label数据,共同指导一个简单的网络(Student model)学习让student学习到teacher的泛化能力迁移学习主要思想目标11.2.3 模型蒸馏常用名词解释原始模型或模型ensembleteacher新模型student用来迁移teacher知识、训练s
11、tudent的数据集合transfer setteacher输出的预测结果(一般是Softmax之后的概率)soft target样本原本的标签hard target蒸馏目标函数中的超参数temperature蒸馏的一种,指student和teacher的结构和尺寸完全一样born-again network防止student的表现被teacher限制,在蒸馏时逐渐减少soft targets的权重teacher annealing11.2.3 模型蒸馏原始模型训练阶段根据目标问题,设计一个大模型或者多个模型集合(N1,N2,Nt)即teacher,然后并行训练集合中的网络精简模型训练阶段11
12、.2.3 模型蒸馏对所有概率向量求取均值作为当前样本最后的概率输出向量并保存精简模型训练阶段设计一个简单网络N0即student并收集简单模型训练数据将收集到的样本输入原始模型(N1,N2,Nt),修改原始模型teacher的Softmax层中温度参数T为一个较大值选取每一个样本在每个原始模型得到其最终的分类概率向量中概率值最大的即为该模型对于当前样本的判定结果标签融合前面收集到的数据定义为样本原本的标签,即hard_target根据公式Target=a*hard_target+b*soft_target(a+b=1),Target最终作为训练数据的标签去训练精简模型预训练技术,BERT,GP
展开阅读全文