学科服务与参考工作第六章-文本和可视化课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《学科服务与参考工作第六章-文本和可视化课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学科 服务 参考 工作 第六 文本 可视化 课件
- 资源描述:
-
1、第六章第六章文本和文档可视化文本和文档可视化第 2 页竢实扬华,自强不息目目 录录CONTENT1 1文本可视化释义文本可视化释义文本内容可视化文本内容可视化文本多层面信息的可视表文本多层面信息的可视表达达文本信息分析基础文本信息分析基础文本关系可视化文本关系可视化总结总结3 35 52 24 46 6第 3 页竢实扬华,自强不息 文本信息无处不在,邮件、新闻、工作报告等都是日常工作中需要处理的文本信息。面对文本信息的爆炸式增长和日益加快的工作节奏,人们需要更高效的文本阅读和分析方法,文本可视化正是在这样的背景下应运而生。6.1文本可视化释义文本可视化释义“”第 4 页竢实扬华,自强不息 6.
2、1.1 文本信息的层级词汇级信息指从一连串的文本文字中提取的语义单元信息。语义单元是由一个或多个字符组成的词元,它是文本信息的最小单元。词汇级(词汇级(Lexical Level)语法级(语法级(Syntactic Level)语义级(语义级(Semantic Level)文本信息涉及的数据类型多种多样,如邮件、新闻、文本档案、微博等。文本是语言文本信息涉及的数据类型多种多样,如邮件、新闻、文本档案、微博等。文本是语言和沟通的载体,文本的含义以及读者对文本的理解需求均纷繁复杂。这种对文本信息和沟通的载体,文本的含义以及读者对文本的理解需求均纷繁复杂。这种对文本信息需求的多样性,要求从不同层级提
3、取与呈现文本信息,文本的提取由浅入深可总结为需求的多样性,要求从不同层级提取与呈现文本信息,文本的提取由浅入深可总结为三个层级。三个层级。语法级信息指基于文本的语言结构对词汇级的语义单元进一步分析和解释而提取的信息。语法级信息的提取过程被称作命名实体识别方法。语义级信息是研究文本整体所表达的的语义内容信息和语义关系,是文本的最高层信息。文本关键字、分词技术(Tokenization)词性、单复数、相近词、以及地点、时间、人名等实体信息文本的字词、短语等在文本中的含义和彼此关系;作者通过文本传达的信息。第 5 页竢实扬华,自强不息 6.1.2 文本可视化的研究内容文本可视化的研究内容可从多个角度
4、总结。例如,以文本文档的类别作为归纳标准的文本可视化,可分为:l 单文本可视化l 文本集合可视化l 时序性可视化本章依据可视化所重点表现的文本信息特征来分类介绍当前的文本可视化研究内容:l 文本内容可视化l 文本关系可视化l 文本多层面信息的可视化这三个方面并非相互独立,而是相辅相成、相互依赖的。第 6 页竢实扬华,自强不息 6.1.3 文本可视化流程文本可视化的工作流程涉及三个部分:文本信息挖掘、视图绘制和人机交互,如图6.1所示。文本可视化是基于任务需求的,因而挖掘信息的计算机模型受到文本可视分析任务的引导。可视和交互的设计必须在理解所使用的信息提取模型的原理基础上进行。图6.1 文本可视
5、化流程第 7 页竢实扬华,自强不息-原始文本存在着无用甚至干扰的信息-原始文本数据的格式多种多样-对于文本数据进行预处理可有效过滤文本中的冗余和无用信息,提取重要的文本素材。-基于度量特征的相似性算法、聚类算法等。-其中,向量空间模型是最常用的方法。-词汇级的关键词、词频分布-语法级的实体信息-语义级的主题等。文本数据的预处理文本数据的预处理文本特征的度量文本特征的度量文本特征的抽取文本特征的抽取在文本信息挖掘文本信息挖掘层次,需要依据文本可视化的任务需求,分析原始文本数据,从文本中提取相应层级(词汇级、语法级或语义级)的信息。通常,文本信息挖掘包括以上三个方面。6.1.3 文本可视化流程6.
6、1.3.16.1.3.1文本信息挖掘文本信息挖掘第 8 页竢实扬华,自强不息这一阶段将文本挖掘所提炼的信息变换为直观的可视视图。在直观的可视图元的辅助下,用户可以快速地获取信息。视图设计常常涉及两个方面:图元设计和图元布局方法。-优秀的图元设计需要准确无误地承载文本的信息特征,如雷达图、Chernoff Faces等。-图元布局算法则要求有效而不失美感地布局图元,使得可视表达符合人类的感知。常用的布局算法包括力引导布局算法、树图算法等。6.1.3 文本可视化流程6.1.3.26.1.3.2 视图绘制视图绘制第 9 页竢实扬华,自强不息人机交互是关于用户如何生成视图和满足分析需求而操作视图的技术
7、。6.1.3 文本可视化流程6.1.3.36.1.3.3 人机交人机交互互Linking&Brushing Brushing:分析焦点数据 Linking:多视图间突出关联数据 平移和缩放 焦点+背景 滤镜第 10 页竢实扬华,自强不息在文本可视化领域,文本信息挖掘方法丰富多样。获取词汇级信息,我们可以采用各种分词算法,针对语法级信息也有多种句法分析算法,而语义级信息则可采用主题抽取算法等。6.2文本信息分析基础文本信息分析基础“”本节列举文本可视化中最常用的一些文本分析技术第 11 页竢实扬华,自强不息 6.2.1 分词技术和词干提取分词技术和词干提取方法通常用于文本数据的预处理。分词分词(
8、Tokenization)指将一段文字划分为多个词项,剔除停词,从文本中提取出有意义的词项。词干提词干提取取(Stemming)指去除词缀得到词根,得到单词最一般写法的技术。词干提取避免了同一个词的不同表现形式对文本分析带来的干扰。第 12 页竢实扬华,自强不息I have a dream that one day this nation will rise up and live out the true meaning of its creed:We hold these truths to be self-evident,that all men are created equal.分词
9、:将一段文字划分为多个词项,剔除停用词(stop words:a,the,that等)提取有意义的词 词干提取,即词形还原:men-man,truths-truth,避免词的不同表达形式干扰文本分析。I,have,dream,one,day,nation,rise,up,live,out,true,meaning,creed,hold,truth,be,self-evident,all,man,created,equal实例:第 13 页竢实扬华,自强不息无结构的文本数据无法直接用于可视化,因此,采用合适的文本度量方法从文本中提取结构化的信息非常重要。向向量空间量空间模型模型(Vector s
10、pace model)指利用向量符号对文本进行度量的代数模型,指代一系列向量空间的定义、生成、度量和应用的方法与技术,常用于自然语言处理、信息检索等领域。6.2.2 向量空间模型向量空间模型第 14 页竢实扬华,自强不息词袋模型(Bag-of-words model)是向量空间模型构造文本向量的常用方法,用来提取词汇级文本信息。在过滤掉停词等对文本内容影响较弱的词之后,词袋模型将一个文档的内容总结为在由关键词组成的集合上的加权分布向量。在基于词袋模型计量的一维词频向量中,每个维度代表一个单词;每个维度的值等于单词在文本中出现的统计信息,可引申为重要性;单词间没有顺序关系。词袋模型没有考虑语法、
11、语序等深层信息,因而直观易懂。在文本分析过程中,采用词袋模型抽取的词频向量可为更高层的文本分析提供底层的数据支持。6.2.2.16.2.2.1 词袋模型词袋模型6.2.2 向量空间模型向量空间模型第 15 页竢实扬华,自强不息向量空间模型可用于度量文本之间的相似性。它采用词项-文档矩阵来构建多个文档的数学模型,其中,一个向量代表一个文本(如文本词频特征向量),并施以空间向量的运算来刻画多个文本向量间的语义相似性。整个计算过程简单且直观易懂。度量文本语义的相似度时,夹角余弦值等向量空间相似度度量方法是常用的方法:其中V1和V2是两个文档的特征向量,|v1|和|V2|是向量的模,余弦值越大,表示这
12、两个文档的内容越相似,反之亦然。向量空间模型可应用于不同的文本分析、文本可视化和信息检索任务中。6.2.2.26.2.2.2 文本的相似性度量文本的相似性度量6.2.2 向量空间模型向量空间模型第 16 页竢实扬华,自强不息在很多词的权重分配模型中,Term Frequency-Inverse Document Frequency(TF-IDF)是最常用的方法。TF-IDF用以评估一个单词或字对于一个文档集或一个语料库中的其中一份文档的重要程度,其核心思想是:字词对于某个文档的重要性随着它在这个文档中出现的次数成正相关增加,但同时会随着它在文档集合中出现的频率而负相关下降。其中,Tf(w)是词
13、w在文档中出现的次数,Df(w)是文档集中包含词w的文档数目,N代表文档的总数。本质上,TfIdf(w)代表词w对于某个文档的相对重要性,这和我们对词的重要性的直观认识一致如果一个词对于某个文档越重要,那么它越多地出现在该文档中(Tf(w)值较大),并且越少地出现在其余的文档中(Df(w)值较小)。也就是说,我们对在一个文档中经常出现,但不常在文本集合中的所有文档中出现的词感兴趣,因为这类词是具有区分度的。6.2.2.36.2.2.3 TF-IDFTF-IDF6.2.2 向量空间模型向量空间模型第 17 页竢实扬华,自强不息主题模型指从语义级别描述文本集合内各个文本的语义内容,即文本的主题描述
14、。主题模型将文本数据建模为如图6.2所示的模型,一个文档的语义内容可描述为多个主题的组合表达,而一个主题可认为是一系列词的概率分布或权重分布。文档主题分布T10.6Tn0.05词Word1 WordN分布0.45 0.002词Word1 WordN分布0.55 0.017主题分布词频分布词频分布图6.2 基于主题的文本信息模型 6.2.3 主题抽取第 18 页竢实扬华,自强不息文本主题的抽取算法大致可分为两类:一类是基于矩阵分解的非概率模型,一类是基于贝叶斯的概率模型。l 在非概率性方法中,词项文档矩阵被投影到K维空间中,其中,每个维度代表一个主题。在主题空间中,每个文档用线性组合表达而成。隐
15、含语义索引(Latent Semantic Indexing,LSI)是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解词项文档矩阵。l 在概率性的主题模型算法中,主题被看成多个词项的概率分布,文档理解为多个主题的组合而产生。一个文档的内容是在主题的概率性分布基础上,从主题的词项分布中抽取词条而构成。其中,概率隐含语义索引(Probabilistic LSI,PLSI)和 Latent Dirichlet Allocation(潜在狄利克雷分布LDA)是广泛使用的方法。6.2.3 主题抽取第 19 页竢实扬华,自强不息 文本内容的可视化是以文本内容作为信息对象的可视化。通常,文本内
16、容的表达包括关键词、短语、句子和主题,文档集合还包括层次性文本内容,时序性文本集合还包括时序性变化的文本内容。1.基于关键词的内容可视化 2.时序性文本可视化3.文本特征的分布模式可视化 4.情感分析可视化 6.3文本内容可视化文本内容可视化“”第 20 页竢实扬华,自强不息6.3.16.3.1 基于关键词的文本内容可视化基于关键词的文本内容可视化 关键词是从文本的文字描述中提取的语义单元,可反映文本内容的侧重点。关键词可视化指以关键词为单位可视地表达文本内容。关键词的提取原则多种多样,常见的方法是词频,即越是重要的单词,其在文档中出现的频率越高。第 21 页竢实扬华,自强不息 标签云标签云(
17、Tag CloudText CloudWord Cloud)是最简单、最常用的关键词可视化技术,它直接抽取文本中的关键词并将其按照一定顺序、规律和约束整齐美观地排列在屏幕上。标签云利用颜色和字体大小反映关键词在文本中分布的差异,比如,用颜色或字体大小,或者它们的组合来表示重要性,越是重要的词汇,其字体越大,颜色越显著,反之亦然。标签云可视化将经过颜色(或字体大小)映射后的字词按照其在文本中原有的位置或某种布局算法放置。图6.3 标签云可视表达“I have a dream”的内容 6.3.1 基于关键词的文本内容可视化标签云标签云第 22 页竢实扬华,自强不息WordleWordle是另一种广
18、泛应用的标签云衍化技术标签云衍化技术。和标签云方法一样,Wordle利用颜色和字体映射关键词的重要性,但Wordle在空间利用和美学欣赏方面有所提升。-整体形状可定制。用 户可自定义画布填充区,比如正方形、圆形或花瓶形状等-字体样式、大小、颜色编码不同属性-紧凑排布,节省空间 图6.4 Wordle可视表达“I have a dream”的内容 6.3.1 基于关键词的文本内容可视化第 23 页竢实扬华,自强不息WordleWordle第 24 页竢实扬华,自强不息第 25 页竢实扬华,自强不息螺旋型布局。每个关键词从画布中心按螺线方式寻找位置,文字的排列方向包括横向和竖向。考虑到布局的紧凑性
19、,Wordle按其重要性降序布局关键词,即先布局占据空间较大的关键词第 26 页竢实扬华,自强不息和前图布局不同在于文字的排列方向只有横向,空间查找起始于画布右下方第 27 页竢实扬华,自强不息随机布局策略的Worldle可视化结果第 28 页竢实扬华,自强不息形态化排布第 29 页竢实扬华,自强不息将上下文相关的词语排列在相近的位置W.Cui,Y.Wu,S.Liu,F.Wei,M.X.Zhou,and 2.I.Huamin Qu Pacific Visualization Symposium PacificVis,“Context preserving dynamic word cloud
20、visualization,”Pacific Visualization Symposium(PacificVis),2010 IEEE,2010.第 30 页竢实扬华,自强不息 使用关键词表达文档内容 同时表达关键词间的层级关系 l 为了从词汇间的语义层次角度可视总结文档的内容,DocuBurst采用径向布局:外圈的词汇是里圈词汇的下义词,圆心处的关键词是文章所涉及内容的最上层概述。每一个词的辐射范围覆盖其所有的下义词。l 类似树状结构排布 图6.5 采用文档散方法表述一本自然教科书中关于“energy”的内容颜色的饱和度编码每个词出现的频率,高词频对应着高饱和颜色 6.3.1 基于关键词的
21、文本内容可视化文档散文档散第 31 页竢实扬华,自强不息l 文档卡片法文档卡片法采用文章的关键图片和关键词信息表达文本的内容。l 为了达到可视化文档集合的目的,文档卡片法将每个文档的关键词和关键图片紧凑地布局在一张卡片中,将其可视化为一张“扑克牌”,这样便于用户在不同尺寸的设备中查看和对比每个文档的信息。l 如图6.6所示。其中,关键图片指采用智能算法抽取图片并根据颜色直方图进行分类后,从每一类图片中选取的代表性图片.图6.6 采用文档卡片法对一篇InfoVis论文的可视化结果 6.3.1 基于关键词的文本内容可视化文档卡片文档卡片第 32 页竢实扬华,自强不息 IEEE InfoVis 20
22、08会议所有论文的文档卡片可视表达结果。其中左侧为某篇文章的文档卡片效果第 33 页竢实扬华,自强不息 对于具有时间和顺序属性的文本,文本内容具有有序演化的特点。表现出文本内容随时间的演化特征 小说内容:情节发展变化 新闻报道:随事件热点而变化 6.3.2 时序性的文本内容可视化时序性的文本内容可视化第 34 页竢实扬华,自强不息 主题河流主题河流(ThemeRiver)是一种经典的展现文本集合主题演化的可视化方法,它采用河流作为可视原语来编码文档集合中的主题信息,将主题隐喻为时间上不断延续的河流。这种方法提供了宏观的主题演化结果,辅助用户观察主题的产生、变化和消失等。图6.7 采用主题河流可
23、视表达1990年6月至8月间AP新闻数据的主题演变主题河流主题河流6.3.2 时序性的文本内容可视化时序性的文本内容可视化横轴表示时间,每一条河流代表一个主题,河流的宽度代表其在当前时间点上所有文本主题中所占的比例。多个主题流叠加在一起,用户既可以看出特定时间点上主题的分布,又可以看到多个主题的发展变化。第 35 页竢实扬华,自强不息l 主题流主题流局限性:只能将每个主题在每 个时间刻度上概括为一个简单的数值,而一个简单的度量数值不能完整地描述主题所包括的的细节内容。l 人们对其做进一步的扩展,如TIARA和TextFlow。l 与主题河流方法相比,TIARATIARA系统系统不仅使用了更为有
24、效的文本分析技术,而且改进 了布局算法,并在可视化中加入了能够帮助用户理解文本主题的关键词信息。l 如图6.8所示,TIARA将标签云技术与主题流结合,用其来描述文本主题在内容上随时间推进而发生的变化。此外,TIARA为每个文本主题在每个时间点上提取出不同的关键词,然后将这些词排布在相应色带上的相应位置,并用词的大小表示关键词在该时刻出现的频率。为了紧凑美观地排列主题支流,TIARA系统还设计了一系列自动调节支流顺序的算法。图6.8采用TIARA可视化邮件内容TIARATIARA6.3.2 时序性的文本内容可视化时序性的文本内容可视化每一个条带代表一个主题第 36 页竢实扬华,自强不息 除了时
展开阅读全文