书签 分享 收藏 举报 版权申诉 / 67
上传文档赚钱

类型学科服务与参考工作第六章-文本和可视化课件.pptx

  • 上传人(卖家):晟晟文业
  • 文档编号:4166235
  • 上传时间:2022-11-16
  • 格式:PPTX
  • 页数:67
  • 大小:39.76MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《学科服务与参考工作第六章-文本和可视化课件.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    学科 服务 参考 工作 第六 文本 可视化 课件
    资源描述:

    1、第六章第六章文本和文档可视化文本和文档可视化第 2 页竢实扬华,自强不息目目 录录CONTENT1 1文本可视化释义文本可视化释义文本内容可视化文本内容可视化文本多层面信息的可视表文本多层面信息的可视表达达文本信息分析基础文本信息分析基础文本关系可视化文本关系可视化总结总结3 35 52 24 46 6第 3 页竢实扬华,自强不息 文本信息无处不在,邮件、新闻、工作报告等都是日常工作中需要处理的文本信息。面对文本信息的爆炸式增长和日益加快的工作节奏,人们需要更高效的文本阅读和分析方法,文本可视化正是在这样的背景下应运而生。6.1文本可视化释义文本可视化释义“”第 4 页竢实扬华,自强不息 6.

    2、1.1 文本信息的层级词汇级信息指从一连串的文本文字中提取的语义单元信息。语义单元是由一个或多个字符组成的词元,它是文本信息的最小单元。词汇级(词汇级(Lexical Level)语法级(语法级(Syntactic Level)语义级(语义级(Semantic Level)文本信息涉及的数据类型多种多样,如邮件、新闻、文本档案、微博等。文本是语言文本信息涉及的数据类型多种多样,如邮件、新闻、文本档案、微博等。文本是语言和沟通的载体,文本的含义以及读者对文本的理解需求均纷繁复杂。这种对文本信息和沟通的载体,文本的含义以及读者对文本的理解需求均纷繁复杂。这种对文本信息需求的多样性,要求从不同层级提

    3、取与呈现文本信息,文本的提取由浅入深可总结为需求的多样性,要求从不同层级提取与呈现文本信息,文本的提取由浅入深可总结为三个层级。三个层级。语法级信息指基于文本的语言结构对词汇级的语义单元进一步分析和解释而提取的信息。语法级信息的提取过程被称作命名实体识别方法。语义级信息是研究文本整体所表达的的语义内容信息和语义关系,是文本的最高层信息。文本关键字、分词技术(Tokenization)词性、单复数、相近词、以及地点、时间、人名等实体信息文本的字词、短语等在文本中的含义和彼此关系;作者通过文本传达的信息。第 5 页竢实扬华,自强不息 6.1.2 文本可视化的研究内容文本可视化的研究内容可从多个角度

    4、总结。例如,以文本文档的类别作为归纳标准的文本可视化,可分为:l 单文本可视化l 文本集合可视化l 时序性可视化本章依据可视化所重点表现的文本信息特征来分类介绍当前的文本可视化研究内容:l 文本内容可视化l 文本关系可视化l 文本多层面信息的可视化这三个方面并非相互独立,而是相辅相成、相互依赖的。第 6 页竢实扬华,自强不息 6.1.3 文本可视化流程文本可视化的工作流程涉及三个部分:文本信息挖掘、视图绘制和人机交互,如图6.1所示。文本可视化是基于任务需求的,因而挖掘信息的计算机模型受到文本可视分析任务的引导。可视和交互的设计必须在理解所使用的信息提取模型的原理基础上进行。图6.1 文本可视

    5、化流程第 7 页竢实扬华,自强不息-原始文本存在着无用甚至干扰的信息-原始文本数据的格式多种多样-对于文本数据进行预处理可有效过滤文本中的冗余和无用信息,提取重要的文本素材。-基于度量特征的相似性算法、聚类算法等。-其中,向量空间模型是最常用的方法。-词汇级的关键词、词频分布-语法级的实体信息-语义级的主题等。文本数据的预处理文本数据的预处理文本特征的度量文本特征的度量文本特征的抽取文本特征的抽取在文本信息挖掘文本信息挖掘层次,需要依据文本可视化的任务需求,分析原始文本数据,从文本中提取相应层级(词汇级、语法级或语义级)的信息。通常,文本信息挖掘包括以上三个方面。6.1.3 文本可视化流程6.

    6、1.3.16.1.3.1文本信息挖掘文本信息挖掘第 8 页竢实扬华,自强不息这一阶段将文本挖掘所提炼的信息变换为直观的可视视图。在直观的可视图元的辅助下,用户可以快速地获取信息。视图设计常常涉及两个方面:图元设计和图元布局方法。-优秀的图元设计需要准确无误地承载文本的信息特征,如雷达图、Chernoff Faces等。-图元布局算法则要求有效而不失美感地布局图元,使得可视表达符合人类的感知。常用的布局算法包括力引导布局算法、树图算法等。6.1.3 文本可视化流程6.1.3.26.1.3.2 视图绘制视图绘制第 9 页竢实扬华,自强不息人机交互是关于用户如何生成视图和满足分析需求而操作视图的技术

    7、。6.1.3 文本可视化流程6.1.3.36.1.3.3 人机交人机交互互Linking&Brushing Brushing:分析焦点数据 Linking:多视图间突出关联数据 平移和缩放 焦点+背景 滤镜第 10 页竢实扬华,自强不息在文本可视化领域,文本信息挖掘方法丰富多样。获取词汇级信息,我们可以采用各种分词算法,针对语法级信息也有多种句法分析算法,而语义级信息则可采用主题抽取算法等。6.2文本信息分析基础文本信息分析基础“”本节列举文本可视化中最常用的一些文本分析技术第 11 页竢实扬华,自强不息 6.2.1 分词技术和词干提取分词技术和词干提取方法通常用于文本数据的预处理。分词分词(

    8、Tokenization)指将一段文字划分为多个词项,剔除停词,从文本中提取出有意义的词项。词干提词干提取取(Stemming)指去除词缀得到词根,得到单词最一般写法的技术。词干提取避免了同一个词的不同表现形式对文本分析带来的干扰。第 12 页竢实扬华,自强不息I have a dream that one day this nation will rise up and live out the true meaning of its creed:We hold these truths to be self-evident,that all men are created equal.分词

    9、:将一段文字划分为多个词项,剔除停用词(stop words:a,the,that等)提取有意义的词 词干提取,即词形还原:men-man,truths-truth,避免词的不同表达形式干扰文本分析。I,have,dream,one,day,nation,rise,up,live,out,true,meaning,creed,hold,truth,be,self-evident,all,man,created,equal实例:第 13 页竢实扬华,自强不息无结构的文本数据无法直接用于可视化,因此,采用合适的文本度量方法从文本中提取结构化的信息非常重要。向向量空间量空间模型模型(Vector s

    10、pace model)指利用向量符号对文本进行度量的代数模型,指代一系列向量空间的定义、生成、度量和应用的方法与技术,常用于自然语言处理、信息检索等领域。6.2.2 向量空间模型向量空间模型第 14 页竢实扬华,自强不息词袋模型(Bag-of-words model)是向量空间模型构造文本向量的常用方法,用来提取词汇级文本信息。在过滤掉停词等对文本内容影响较弱的词之后,词袋模型将一个文档的内容总结为在由关键词组成的集合上的加权分布向量。在基于词袋模型计量的一维词频向量中,每个维度代表一个单词;每个维度的值等于单词在文本中出现的统计信息,可引申为重要性;单词间没有顺序关系。词袋模型没有考虑语法、

    11、语序等深层信息,因而直观易懂。在文本分析过程中,采用词袋模型抽取的词频向量可为更高层的文本分析提供底层的数据支持。6.2.2.16.2.2.1 词袋模型词袋模型6.2.2 向量空间模型向量空间模型第 15 页竢实扬华,自强不息向量空间模型可用于度量文本之间的相似性。它采用词项-文档矩阵来构建多个文档的数学模型,其中,一个向量代表一个文本(如文本词频特征向量),并施以空间向量的运算来刻画多个文本向量间的语义相似性。整个计算过程简单且直观易懂。度量文本语义的相似度时,夹角余弦值等向量空间相似度度量方法是常用的方法:其中V1和V2是两个文档的特征向量,|v1|和|V2|是向量的模,余弦值越大,表示这

    12、两个文档的内容越相似,反之亦然。向量空间模型可应用于不同的文本分析、文本可视化和信息检索任务中。6.2.2.26.2.2.2 文本的相似性度量文本的相似性度量6.2.2 向量空间模型向量空间模型第 16 页竢实扬华,自强不息在很多词的权重分配模型中,Term Frequency-Inverse Document Frequency(TF-IDF)是最常用的方法。TF-IDF用以评估一个单词或字对于一个文档集或一个语料库中的其中一份文档的重要程度,其核心思想是:字词对于某个文档的重要性随着它在这个文档中出现的次数成正相关增加,但同时会随着它在文档集合中出现的频率而负相关下降。其中,Tf(w)是词

    13、w在文档中出现的次数,Df(w)是文档集中包含词w的文档数目,N代表文档的总数。本质上,TfIdf(w)代表词w对于某个文档的相对重要性,这和我们对词的重要性的直观认识一致如果一个词对于某个文档越重要,那么它越多地出现在该文档中(Tf(w)值较大),并且越少地出现在其余的文档中(Df(w)值较小)。也就是说,我们对在一个文档中经常出现,但不常在文本集合中的所有文档中出现的词感兴趣,因为这类词是具有区分度的。6.2.2.36.2.2.3 TF-IDFTF-IDF6.2.2 向量空间模型向量空间模型第 17 页竢实扬华,自强不息主题模型指从语义级别描述文本集合内各个文本的语义内容,即文本的主题描述

    14、。主题模型将文本数据建模为如图6.2所示的模型,一个文档的语义内容可描述为多个主题的组合表达,而一个主题可认为是一系列词的概率分布或权重分布。文档主题分布T10.6Tn0.05词Word1 WordN分布0.45 0.002词Word1 WordN分布0.55 0.017主题分布词频分布词频分布图6.2 基于主题的文本信息模型 6.2.3 主题抽取第 18 页竢实扬华,自强不息文本主题的抽取算法大致可分为两类:一类是基于矩阵分解的非概率模型,一类是基于贝叶斯的概率模型。l 在非概率性方法中,词项文档矩阵被投影到K维空间中,其中,每个维度代表一个主题。在主题空间中,每个文档用线性组合表达而成。隐

    15、含语义索引(Latent Semantic Indexing,LSI)是代表性的非概率模型,它基于主题间的正交性假设,采用SVD分解词项文档矩阵。l 在概率性的主题模型算法中,主题被看成多个词项的概率分布,文档理解为多个主题的组合而产生。一个文档的内容是在主题的概率性分布基础上,从主题的词项分布中抽取词条而构成。其中,概率隐含语义索引(Probabilistic LSI,PLSI)和 Latent Dirichlet Allocation(潜在狄利克雷分布LDA)是广泛使用的方法。6.2.3 主题抽取第 19 页竢实扬华,自强不息 文本内容的可视化是以文本内容作为信息对象的可视化。通常,文本内

    16、容的表达包括关键词、短语、句子和主题,文档集合还包括层次性文本内容,时序性文本集合还包括时序性变化的文本内容。1.基于关键词的内容可视化 2.时序性文本可视化3.文本特征的分布模式可视化 4.情感分析可视化 6.3文本内容可视化文本内容可视化“”第 20 页竢实扬华,自强不息6.3.16.3.1 基于关键词的文本内容可视化基于关键词的文本内容可视化 关键词是从文本的文字描述中提取的语义单元,可反映文本内容的侧重点。关键词可视化指以关键词为单位可视地表达文本内容。关键词的提取原则多种多样,常见的方法是词频,即越是重要的单词,其在文档中出现的频率越高。第 21 页竢实扬华,自强不息 标签云标签云(

    17、Tag CloudText CloudWord Cloud)是最简单、最常用的关键词可视化技术,它直接抽取文本中的关键词并将其按照一定顺序、规律和约束整齐美观地排列在屏幕上。标签云利用颜色和字体大小反映关键词在文本中分布的差异,比如,用颜色或字体大小,或者它们的组合来表示重要性,越是重要的词汇,其字体越大,颜色越显著,反之亦然。标签云可视化将经过颜色(或字体大小)映射后的字词按照其在文本中原有的位置或某种布局算法放置。图6.3 标签云可视表达“I have a dream”的内容 6.3.1 基于关键词的文本内容可视化标签云标签云第 22 页竢实扬华,自强不息WordleWordle是另一种广

    18、泛应用的标签云衍化技术标签云衍化技术。和标签云方法一样,Wordle利用颜色和字体映射关键词的重要性,但Wordle在空间利用和美学欣赏方面有所提升。-整体形状可定制。用 户可自定义画布填充区,比如正方形、圆形或花瓶形状等-字体样式、大小、颜色编码不同属性-紧凑排布,节省空间 图6.4 Wordle可视表达“I have a dream”的内容 6.3.1 基于关键词的文本内容可视化第 23 页竢实扬华,自强不息WordleWordle第 24 页竢实扬华,自强不息第 25 页竢实扬华,自强不息螺旋型布局。每个关键词从画布中心按螺线方式寻找位置,文字的排列方向包括横向和竖向。考虑到布局的紧凑性

    19、,Wordle按其重要性降序布局关键词,即先布局占据空间较大的关键词第 26 页竢实扬华,自强不息和前图布局不同在于文字的排列方向只有横向,空间查找起始于画布右下方第 27 页竢实扬华,自强不息随机布局策略的Worldle可视化结果第 28 页竢实扬华,自强不息形态化排布第 29 页竢实扬华,自强不息将上下文相关的词语排列在相近的位置W.Cui,Y.Wu,S.Liu,F.Wei,M.X.Zhou,and 2.I.Huamin Qu Pacific Visualization Symposium PacificVis,“Context preserving dynamic word cloud

    20、visualization,”Pacific Visualization Symposium(PacificVis),2010 IEEE,2010.第 30 页竢实扬华,自强不息 使用关键词表达文档内容 同时表达关键词间的层级关系 l 为了从词汇间的语义层次角度可视总结文档的内容,DocuBurst采用径向布局:外圈的词汇是里圈词汇的下义词,圆心处的关键词是文章所涉及内容的最上层概述。每一个词的辐射范围覆盖其所有的下义词。l 类似树状结构排布 图6.5 采用文档散方法表述一本自然教科书中关于“energy”的内容颜色的饱和度编码每个词出现的频率,高词频对应着高饱和颜色 6.3.1 基于关键词的

    21、文本内容可视化文档散文档散第 31 页竢实扬华,自强不息l 文档卡片法文档卡片法采用文章的关键图片和关键词信息表达文本的内容。l 为了达到可视化文档集合的目的,文档卡片法将每个文档的关键词和关键图片紧凑地布局在一张卡片中,将其可视化为一张“扑克牌”,这样便于用户在不同尺寸的设备中查看和对比每个文档的信息。l 如图6.6所示。其中,关键图片指采用智能算法抽取图片并根据颜色直方图进行分类后,从每一类图片中选取的代表性图片.图6.6 采用文档卡片法对一篇InfoVis论文的可视化结果 6.3.1 基于关键词的文本内容可视化文档卡片文档卡片第 32 页竢实扬华,自强不息 IEEE InfoVis 20

    22、08会议所有论文的文档卡片可视表达结果。其中左侧为某篇文章的文档卡片效果第 33 页竢实扬华,自强不息 对于具有时间和顺序属性的文本,文本内容具有有序演化的特点。表现出文本内容随时间的演化特征 小说内容:情节发展变化 新闻报道:随事件热点而变化 6.3.2 时序性的文本内容可视化时序性的文本内容可视化第 34 页竢实扬华,自强不息 主题河流主题河流(ThemeRiver)是一种经典的展现文本集合主题演化的可视化方法,它采用河流作为可视原语来编码文档集合中的主题信息,将主题隐喻为时间上不断延续的河流。这种方法提供了宏观的主题演化结果,辅助用户观察主题的产生、变化和消失等。图6.7 采用主题河流可

    23、视表达1990年6月至8月间AP新闻数据的主题演变主题河流主题河流6.3.2 时序性的文本内容可视化时序性的文本内容可视化横轴表示时间,每一条河流代表一个主题,河流的宽度代表其在当前时间点上所有文本主题中所占的比例。多个主题流叠加在一起,用户既可以看出特定时间点上主题的分布,又可以看到多个主题的发展变化。第 35 页竢实扬华,自强不息l 主题流主题流局限性:只能将每个主题在每 个时间刻度上概括为一个简单的数值,而一个简单的度量数值不能完整地描述主题所包括的的细节内容。l 人们对其做进一步的扩展,如TIARA和TextFlow。l 与主题河流方法相比,TIARATIARA系统系统不仅使用了更为有

    24、效的文本分析技术,而且改进 了布局算法,并在可视化中加入了能够帮助用户理解文本主题的关键词信息。l 如图6.8所示,TIARA将标签云技术与主题流结合,用其来描述文本主题在内容上随时间推进而发生的变化。此外,TIARA为每个文本主题在每个时间点上提取出不同的关键词,然后将这些词排布在相应色带上的相应位置,并用词的大小表示关键词在该时刻出现的频率。为了紧凑美观地排列主题支流,TIARA系统还设计了一系列自动调节支流顺序的算法。图6.8采用TIARA可视化邮件内容TIARATIARA6.3.2 时序性的文本内容可视化时序性的文本内容可视化每一个条带代表一个主题第 36 页竢实扬华,自强不息 除了时

    25、序性主题可视化,文本内容的文字随着时间推移而发生的变化也是用户分析所需要观察的。历史流历史流(History Flow)方法的设计初衷是可视地表达每个版本的维护者和他们所做的修改。图6.9可视化了维基百科上一篇词条为“Abortion”的文章随着时间推移所发生的版本变更。每一个纵轴代表文章的版本更新时间点,按照版本顺序从左至右排列(三个版本),纵轴间距代表两个版本的时间间隔;每一种颜色代表一个作者;在同一 个时间轴上,色块代表相应的作者所贡献的文字块,并且色块的位置代表该文字块在文章中的顺序;在相邻的时间轴上,相同的文字块相互连接。由此,我们可以看出文字的插入、删除和添加等修改。图6.9 采用

    26、历史流方法可视化维基百科中“Abortion”词条的修订信息历史流(历史流(History FlowHistory Flow)6.3.2 时序性的文本内容可视化时序性的文本内容可视化第 37 页竢实扬华,自强不息6.3.3文本特征的分布模式可视化文本特征的分布模式可视化 除了关键词、主题等总结性文本内容外,文本可视化还可用于呈现文本特征在单个文档或文档集合中的分布模式,如关键词、句子的平均长度及词汇量等第 38 页竢实扬华,自强不息可视化一个文档中的词频和词的分布情况图6.10 采用文本弧方法可视化Alice in Wonderland全文的单词分布文本弧(文本弧(TextArcTextArc

    27、)6.3.3文本特征的分布模式可视化文本特征的分布模式可视化整个文档用一条螺线表示,文档的句子按照文字的组织顺序有序地布局在螺线上,即螺线开头是文章的首句,末尾是文章的结尾句子。画布中间填充的是文档中出现的单词,字体和颜色饱和度表示对应的词频。单词的放置位置由单词出现的位置和频率决定,即在全文各处出现频繁的词汇靠近画布中心,而在局部频繁出现的单词靠近其相应的螺线区域。用鼠标单击后,单词以自身为中心发出射线指示其在文档中出现的位置。同时,含有所选单词的句子用绿色高亮表示第 39 页竢实扬华,自强不息文献指纹(Literature Fingerprinting)方法帮助用户了解某一特征在全文中的分

    28、布规律。不同于TextArc,它将特征在整个文本中的分布用一系列像素图(pixel chart)表达,这些像素图称为文献特征指纹。文献指纹法可呈现特征的全局分布情况,方便用户对比信息的分布差异。文献指纹(文献指纹(LiteratureLiterature FingerprintingFingerprinting)6.3.3文本特征的分布模式可视化文本特征的分布模式可视化Mark Twain和 Jack London的写作风格间差异 语句长度 指纹 每个像素代表一段文本 一组像素代表一本书的“句子平均长度指纹”颜色代表该文本段的句子平均长度第 40 页竢实扬华,自强不息 文本特征透镜(Featu

    29、re Lens)方法用于可视化文本特征在一个文档集合中不同粒度的分布情况,如关键词、短语和句子的频率。利用自身包含的文本挖掘模块提取出集合中频繁出现的文本特征后,Feature Lens使用户既可从文本集合的高度概括性角度查看文本特征的分布,还可查看文本特征在底层文本中的分布。Feature Lens当前采用直方图度量频率分布情况,并用三个视图来展示统计结果,如图6.12所示。文本特征透镜(文本特征透镜(FeatureFeature LensLens)6.3.3文本特征的分布模式可视化文本特征的分布模式可视化第 41 页竢实扬华,自强不息采用文档特征透镜法可视化4个词项(America,peo

    30、ple,world和country)在8篇演讲文档中的分布情况。演讲时间作为每个文档的标签。中间上方的文档集合视图利用折线图概括性可视化每个词项在文档集合中的分布,中间下方的文档视图可视化4个词项总结在单个文档中的分布。每个文档可视化为一个子窗口,窗口中的每列代表一个词项,每行代表一个段落。颜色条指示词项在文档中各个段落的分布情况。用户选中某个文档,右方的文本视图可视化4个词项在文本文字中的分布。第 42 页竢实扬华,自强不息l 情感分析(又称意见挖掘,Sentiment Analysis或Opinion Analysis)常被应用于论坛用户发言、社交网络、微博数据,以及各种调研报告等文本。情

    31、感分析的挖掘技术可提取出文本中的主观性信息,并通常转化为一个区间分数,端为积极倾向,另一 端为消极倾向。情感分析可视化表达文本中蕴涵的用户情感倾向性信息:-用户主观性评价的对象-对象的属性和用户的意见倾向-其他依可视化任务而定的信息。6.3.4 情感分析可视化情感分析可视化第 43 页竢实扬华,自强不息6.3.4 情感分析可视化情感分析可视化图6.12 用户对打印机的使用反馈可视化横坐标:打印机的不同评价方面纵坐标:不同的打印机型号是基于矩阵视图的客户反馈信息的可视化实例每一行是一个打印机的使用记录。每一列是打印机的评价参数。颜色代表用户对打印机的评价参数,红色代表消极,蓝色代表积极,透明度代

    32、表了不同程度的评价,每一个方格子内的小格子代表用户评价的人数,即人数越多,内格子越大第 44 页竢实扬华,自强不息情感地图(Sentiment Map).结合地理信息,表达了不同来源的新闻报道情感倾向性的不同,即新闻视点的差异。每个大洲可视化结果所示的是新闻报道的评价分数。其中,横轴代表新闻时间,纵轴代表整体或单项评价分数第 45 页竢实扬华,自强不息 在进行信息检索时,采用可视化方法辅助用户了解检索结果,并揭示结果的分布规律,可以显著提升用户的搜索体验,帮助评估搜索结果。常用于可视化的检索细节包括检索文档、查询项的相似性和检索文档所涉及的词汇等。6.3.5 文档信息检索可视化文档信息检索可视

    33、化第 46 页竢实扬华,自强不息TileBarTileBar方法使用丰富的可视技术帮助用户分析检索到的每篇文档和查询项间的匹配程度的信息。如图6.13所示,颜色条代表用户的单次查询项的结果。检索的每个文档用一个矩形表示,矩形的宽度代表文本的长度。矩形进一步细分为多列,代表每个文本块。每个查询项在矩形内分配了一行。每个色块的灰度代表其相应的文本与查询项的匹配度。灰度级在整个文本中呈现的特征可提示用户,其输入的査询项在这个文档中的重要性。TileBar为用户提供了一个关于文档长度、查询项频率和查询项分布的视觉搜索反馈机制。图6.13 TileBar可视化用户的检索结果TileBarTileBar6

    34、.3.5 文档信息检索可视化文档信息检索可视化第 47 页竢实扬华,自强不息 SparklerSparkler通过可视化提供了查询项和检索到的文档集之间匹配程度的概览,也可用于比较不同查询项的检索结果之间的差异。Sparkler方法的核心原理是采用点之间的距离代表文档和査询项的匹配程度,即距离越短,匹配度越高,反之亦然。为了便于较多个查询项的检索结果集的差异,Sparkler方法采用了径向布局方式。每个扇区代表一个查询项,圆心点代表查询项的位置,每个点代表一个文档。文档的匹配程度则通过文档块到圆心的半径表示。一个文档在不同查询项下的匹配差异可通过鼠标交互点击文档点完成,当一个文档点被点击后,它

    35、在其他查询项扇区的匹配位置会高亮显示。SparklerSparkler6.3.5 文档信息检索可视化文档信息检索可视化第 48 页竢实扬华,自强不息日本贸易的检索结果的Sparkler可视化实例图中共12个查询项。每个像素块是一个文档,每个扇区对应一个查询项,并利用颜色区分。对每个查询项,其检索到的文档布局在其对应的扇区,并且文档到中心的距离代表其内容与查询项的匹配成都,距离越短,代表相关性越高。匹配成都相同的文档布局在同一个圆弧上。第 49 页竢实扬华,自强不息 基于文本关系的可视化旨在可视表达文本或文本集合(corpus或document collection)内蕴涵的关系信息,比如文本之

    36、间的引用、网页之间的超链接关系、文本间内容的相似性和文本集合内容的层次性等。各种图的布局和投影是常用的表达文本关系的可视化方法。6.4文本关系可视化文本关系可视化“”第 50 页竢实扬华,自强不息 单词树(Word Tree)从句法层面可视表达文本词汇的前缀关系。单词树方法利用树型结构来可视化总结文本的句子,树的根节点是用户感兴趣的一个词,子节点是原文中搭配在父节点后面的词或短语。字体大小反映了词或短语在文中出现的频率。单词树(单词树(WordWord TreeTree)6.4.1 基于图的文本关系可视化基于图的文本关系可视化图6.16使用单词树方法可视化“I have a dream”演讲片

    37、段中的词汇前缀关系第 51 页竢实扬华,自强不息短语网络(Phrase Nets)采用节点-链接图展示无结构文本中语义单元彼此间的关系,如“X is Y”。节点代表语义单元,如词或短语,边代表用户指定的关系,箭头指示关系的有向性,边的宽度指示这对短语关系在文中出现的频率。通过短语网络方法,用户可直观地总览文本中各个实体的关联关系。短语及短语间的关系信息是通过文本挖掘算法提取的词汇级或语法级的信息。为了降低边的交叉,短语是通过力引导布局的短语网络(短语网络(PhrasePhrase NetsNets)6.4.1 基于图的文本关系可视化基于图的文本关系可视化图6.17 使用短语网络方法可视表达小说

    38、Jane Eyre中the的短语关系第 52 页竢实扬华,自强不息 树图方法也可用于刻画文本间的相似性。新闻地图(NewsMap)采用树图组织类型相近的新闻,如图6.18所示。新闻地图(新闻地图(NewsMapNewsMap)6.4.1 基于图的文本关系可视化基于图的文本关系可视化图6.18 采用新闻地图方法对在线新闻进行可视化。颜色用于区分新闻类型,包括全球、本国、商业、科技等类型。第 53 页竢实扬华,自强不息6.4.26.4.2 文档集合关系可视化文档集合关系可视化 多个文档之间的相似和差异也是人们对一个文档集合非常感兴趣的问题。由于逐一显示每个文档中的特征或词语并不现实,所以通常对单个

    39、文档定义一个特征向量,利用向量空间模型计算文档间的相似性,并采用相应的投影技术呈现文档集合的关系。主元分析(Principal Component Scaling,PCA)、多维尺度分析(Multidimensional Scaling,MDS)和自组织映射(Self-organizing Map,SOM)是常用的投影算法。第 54 页竢实扬华,自强不息 星系视图(Galaxy View)采用仿生的方法可视表达文档间的相似性。每个文档被看成星系中一颗星星,通过投影的方法将所有文档按照其主题的相似性投影为二维平面的点集,点之间的距离与其主题相似性成正比。如图6.19所示,当用户查看文档点的分布时

    40、,犹如在观看星空。密集的点簇代表文档集合中有很多关于描述同一类主题的文档,点越多越密集代表这一类文档的数量越多,多个点簇反映了文档集合涉及的不同主题内容。星系视图(星系视图(GalaxyGalaxy ViewView)6.4.2文档集合关系可视化文档集合关系可视化图6.19 采用星系视图方法可视化数百个文档的主题相似性第 55 页竢实扬华,自强不息 主题地貌(ThemeScape)是对星系视图方法的一种改进在其所计算的文档投影位置的基础上,采用等高线的方式可视表达文档集合中相似文档的分布情况(见图6.20)。文档位置分布的疏密程度映射为山体高度,等高线和颜色共同刻画文本分布的密度。文档越相似,

    41、则点分布越密集,从而等高线越紧密,颜色越显著。山峰直观简洁地可视化文档集合中涉及的中心主题。主题地貌方法比星系视图方法更直观地揭示了文档集合的主题分布和每个主题所涉及的文档数量的差异性对比。主题地貌(主题地貌(ThemeScapeThemeScape)6.4.2文档集合关系可视化文档集合关系可视化第 56 页竢实扬华,自强不息图6.20 采用主题地貌方法可视表达2600篇专利文献第 57 页竢实扬华,自强不息先将少量样例文本投影到二维空间,再根据用户选取的样例,后续选择一些相关的文本投影在二维空间中。在图6.21中(a)是所有的文本全部投影在二维空间中的结果;(b)显示了每类文本中代表性文档的

    42、二维投影(1000个范例);(c)是在(b)中用矩形框选中的范例文本的投影结果(有三个相似的newsgroups)。基于范例的大文本集合投影基于范例的大文本集合投影图6.21 将基于范例的大文本集合投影方法应用于20个Newsgroups(18864篇文档,20个主题)每个点代表一个文档,每个颜色代表一类文本。6.4.2文档集合关系可视化文档集合关系可视化From:Chen 2009,Exemplar-based Visualization of Large Document Corpus(InfoVis2009-1115)第 58 页竢实扬华,自强不息 JigSaw系统采用多种可视化视图表达

    43、集合中存在的关系信息,并提供一系列交互方法帮助用户在多个视图间切换和深入分析感兴趣的文档与实体以及它们的关系信息(见下图)。-List View:表达二元实体集合间的关联关系。空间利用率不高,但简单直观、易于观察。-Document View:辅助用户从最原始的文档内容进行分析,并高亮显示有关的实体,辅助用户辨析信息。-Graph View:节点链接图可视化文档和其所涉及的实体信息。白色圆代表一个文档,其他颜色小圆代表实体,边表达文档和实体关联。-Scatter plot:代表实体和实体之间的关系,即菱形所代表的共同涉及的文档。-Cluster view-Calendar view-Shoeb

    44、oxJigSawJigSaw6.4.2文档集合关系可视化文档集合关系可视化第 59 页竢实扬华,自强不息列表视图散点图节点链接图文本内容视图第 60 页竢实扬华,自强不息Calendar viewCluster viewShoebox第 61 页竢实扬华,自强不息文本集合中存在多个层面的信息和上下文关联信息,如时间、地点等。特定的文本分析任务要求用户分析文本的同时考查这些多层面的信息,以便挖掘其中的规律或异常。为了辅助用户分析,文本的可视表达如何通过可视化有效地整合多层面的信息,从而辅助用户分析,是文本可视化的研究方向之一。6.5文本多层面信息的可视表达文本多层面信息的可视表达“”第 62 页

    45、竢实扬华,自强不息ContexTour可视化文档集合所涉及的多个层面的内容和各个层面间的关系,以学术文章为例,即会议、作者和关键词这三个方面。在数据分析阶段,ContexTour 从语义上分析了论文在每个文本信息层面上的内容聚类结果和各层面之间的聚类信息。在可视表达上,轮廓线可用于刻画论文的聚集情况,即颜色越深的区域代表相近的论文数量越多。布局在轮廓线上的文字也可揭示“会议”、“作者”、“主题”这三个层面各自的聚类内容。6.5 文本多层面信息的可视表达文本多层面信息的可视表达图6.23 ContexTour可视化2005年DBLP收录的文章所涉及的会议、作者、学术关键词视图。用多个视图来揭示“

    46、会议-作者-主题”之间的关联ContexContex TourTour第 63 页竢实扬华,自强不息 FacetAtlas从文本信息的内容与关系的角度出发,分析并解释多层面的文本信息。例如,从谷歌在线医疗健康文档中提取疾病名称、病因、症状、治疗方法等多个层面的信息,每个层面信息出现在不同的病例文档中。-为了辅助医生査看每种疾病的各层面信息以及不同疾病在各个层面的信息关联,FacetAtlas方法的可视化设计混合了气泡集(BubbleSet)和节点-链接图两类视图,用于表达各层面信息内部和外部的关联。-具体而言,FacetAtlas将相关的实体信息采用圆圈可视编码实体,按其文档的归属布局在空间中

    47、,属于同一类别的实体,位置关系相近。经核密度估计而获取的轮廓线可视地刻画每个实体的类别信息,带颜色的线连接属于同一层面的实体信息,每种颜色代表一个层面。-图6.24显示了1号糖尿病和2号糖尿病的医疗信息。6.5 文本多层面信息的可视表达文本多层面信息的可视表达FacetAtlasFacetAtlas第 64 页竢实扬华,自强不息图6.24 采用FacetAtlas方法可视化医疗健康文档中关于“diabetes”的多层面信息两个疾病聚类对应1号糖尿病和2号糖尿病。连接线将属于不同聚类的相同层面信息连接起来,红线连接1号和2号糖尿病中相似的并发症信息,绿线提示1号和2号糖尿病存在相似的症状信息。第

    48、 65 页竢实扬华,自强不息 平行标签云(Parallel Tag Clouds)结合平行坐标和标签云技术可视化文本的 不同层面信息。如图6.25所示,平行坐标的每一列代表用户感兴趣的某一层面的文本信息,每一列的标签云可视化该层面的文本内容,折线展现了用户感兴趣的关键词在不同层面的分布情况。这种方法有助于用户直观比较不同层面的文本内容的差异。平行标签云(平行标签云(ParallelParallel TagTag CloudsClouds)图6.25 平行标签云方法直观地呈现了不同时间段某法庭的毒品(drug prevalence)案件记录中不同层面的文本内容差异6.5 文本多层面信息的可视表达

    49、文本多层面信息的可视表达From:Parallel Tag Clouds to explore and analyze faceted text corpora第 66 页竢实扬华,自强不息 文本可视化涉及文本信息提取技术和可视表达两个方面。本章介绍了文本可视化领域常用的文本可视化基础知识和方法以及文本信息提取技术,并从文本内容、文本关系、多层面展示信息的角度阐述了文本可视化的研究内容和现有成果。需要注意的是,这三个层 面不是相互隔离的,而是相互连通的。文本可视化不同于具有空间属性的科学可视化文本信息没有空间位置等结构化信 息。因此,如何将没有空间结构属性的文本信息转换为用户乐于接受的二维或三维空间的可视表达结果是文本可视化面临的一个核心问题。在未来的文本可视化研究中,如何将文本分析模型和信息可视化技术无缝结合,如何更好地处理海量、时变、具备多重语义的文本信息是极大的研究挑战。6.6总结总结“”Thank you!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:学科服务与参考工作第六章-文本和可视化课件.pptx
    链接地址:https://www.163wenku.com/p-4166235.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库