数据可视化文本数据可视化教学课件.pptx

上传人（卖家）：三亚风情

文档编号：3325404

上传时间：2022-08-20

格式：PPTX

页数：54

大小：4.21MB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

28 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《数据可视化文本数据可视化教学课件.pptx》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据可视化文本教学课件

资源描述：: 1、2022-8-121数据可视化数据可视化-文本数据可视化2022-8-1222022-8-122文本可视化背景文本信息爆炸式增长需要高效的阅读方式“一图胜千言”，图形表达信息的优势标签云技术、信息文本图等文本可视化技术的不断发展2022-8-123目录文本数据在大数据中的应用及提取文本信息分析文本信息可视化本章小结010203042022-8-1242022-8-124文本数据在大数据中的应用及提取文本数据在大数据中的应用文本信息层级词汇级一连串文本中提取的语义单元语义单元由一个或多个字符组成的词元，是文本信息的最小单元文本关键字属词汇级别语法级基于文本的语言机构对词汇级语义
2、单元进行提取分析语义单元的语法属语法级信息，如词性、单复数语法级信息的提取过程被称作命名实体识别方法语义级研究文本整体所表达的语义内容信息和语义关系文本的最高层信息2022-8-1252022-8-125文本数据在大数据中的应用及提取文本数据在大数据中的应用从数据大、类型多、处理速度快、价值密度低的大数据提取有用信息的重要性图像和图形在信息表达上的优势和效率需要从不同层级提取与呈现文本信息不同级的信息挖掘方法也不同，词汇级当然是用各类分词算法，语法级用一些句法分析算法，语义级用主题抽取算法2022-8-1262022-8-126文本数据在大数据中的应用及提取文本数据在大数据中的应
3、用文本可视化流程文本信息挖掘文本数据的预处理、文本特征的抽取、文本特征的度量视图绘制图元设计、图元布局人机交互2022-8-1272022-8-127文本数据在大数据中的应用及提取使用网络爬虫提取文本数据网络爬虫网络爬虫又称网络蜘蛛，将互联网比喻成一个蜘蛛网，Spider就是在网上爬的蜘蛛网络爬虫就是根据网页的地址来寻找网页的，也就是URL 解析网页使用的语言为Python2022-8-1282022-8-128文本数据在大数据中的应用及提取使用网络爬虫提取文本数据 URL一般格式“protocol:/hostname:port/path/;parameters?query#
4、fragment”第一部分：协议protocol，例如百度使用的就是https协议第二部分：hostname:port，主机名(还有端口号为可选参数,端口号一般默认为80)第三部分：path是主机资源的具体地址，如目录和文件名等网络爬虫就是根据URL对web信息进行获取的2022-8-1292022-8-129文本数据在大数据中的应用及提取使用网络爬虫提取文本数据 Python爬虫架构调度器 URL管理器网页下载器网页解析器应用程序2022-8-12102022-8-1210文本数据在大数据中的应用及提取使用网络爬虫提取文本数据爬虫示例代码：爬虫结果：2022-8-12112
5、022-8-1211文本信息分析分词技术和词干提取分词技术和词干提取方法通常用于文本数据的预处理分词：将一段文字划分为多个词项，剔除停词，从文中提取有意义的词项词干提取：去除词缀得到词根，得到单词最一般写法的技术词干提取避免了同一个词的不同表现形式对文本分析的干扰2022-8-12122022-8-1212文本信息分析分词技术和词干提取以马汀路德金的“I have a dream”演讲的一段为例：I have a dream that one day this nation will rise up and live out the true meaning of its cre
6、ed:”We hold these truths to be self-evident,that all men are created equal.“剔除a,the,that等停词，经过分词后，这段话可提取出20个词项：I,have,dream,one,day,nation,rise,up,live,out,true,meaning,creed,hold,truths,self-evident,all,men,created,equal 词干提取过程又会将“men”和“truths”分别还原为“man”和“truth”2022-8-12132022-8-1213文本信息分析向量空间模型词
7、袋模型将某一文本看作是一个词集合，忽略语法、词序文本中每个词相互独立，对其它词不依赖将一个文档的内容总结为在由关键词组成的集合上的加权分布向量在基于词袋模型计算的一维词频向量中，每个维度代表一个单词；每个维度的值等于单词在文本中出现的统计信息，单词间没有顺序关系2022-8-12142022-8-1214文本信息分析向量空间模型词袋模型以Charles Dickens的双城记书中的一段文字为例：“It was the best of times,it was the worst of times,it was the age of wisdom,it was the age of f
8、oolishness.”这段文字共包含24个单词，在分词以后变为10个单词；经词干提取后，这段文字可表达为一个词频向量2022-8-12152022-8-1215文本信息分析向量空间模型 TF-IDF 一种用于资讯检索与资讯探勘的常用加权技术；用以评估一个单词或字对于某文档集或语料库中的其中一份文档的重要程度；核心思想：字词的重要性随着其在文档出现的次数成正相关增加，同时会随着出现的频率而负相关下降定义：表示词w对于某个文档的相对重要性；是词w在文档中出现的次数；文档集中包含w的文档数目，N代表文档总数2022-8-12162022-8-1216文本信息分析主题抽取主题模型，即文本的
9、主题描述文本主题的抽取算法大致分两类：基于矩阵分解的非概率模型词项-文档矩阵投影到K维空间中每个维度代表一个主题在主题空间中，每个文档由K个主题的线性组合来表示隐含语义检索是代表性的非概率模型，它基于主题间的正交性假设，采用SVD分解词项-文档矩阵基于贝叶斯的概率模型主题被当成多个词项的概率分布文档可以理解成由多个主题的组合而产生的概率隐含语义检索是广泛使用的方法 2022-8-12172022-8-1217文本信息可视化文本数据大体上可分为：单文本文档集合时序文本数据以上对应的文本可视化分别为：文本内容的可视化文本关系的可视化文本多层面信息的可视化2022-8-121820
10、22-8-1218文本信息可视化文本内容可视化基于关键词的文本内容可视化标签云（Tag Cloud）最简单、最常用的关键词可视化技术将抽取的关键词按照一定规律整齐美观地排列在屏幕上利用颜色和大小反映关键词在文本中分布的差异将经过颜色映射后的字词按照其在文本中原有的位置或某种布局算法放置2022-8-12192022-8-1219文本信息可视化文本内容可视化基于关键词的文本内容可视化标签云文本可视化示例2022-8-12202022-8-1220文本信息可视化文本内容可视化基于关键词的文本内容可视化文档散（DocuBurst）采用径向布局来从词汇间语义层次角度可视总结文档的内容；外圈
11、的词汇是里圈词的下义词；圆心处的关键词是文章所涉及内容的最上层概述；每个词的辐射范围覆盖其所有的下义词2022-8-12212022-8-1221文本信息可视化文本内容可视化基于关键词的文本内容可视化文档散（DocuBurst）如右图文档散可视化文本示例：外层的词是内层词的下义词颜色饱和度的深浅用来体现词频的高低2022-8-12222022-8-1222文本信息可视化文本内容可视化基于关键词的文本内容可视化文档卡片（Document Cards）采用文章的关键图片和关键词信息表达文本内容，并将其布局在一张卡片中;便于用户在不同尺寸设备中查看和对比每个文档信息2022-8-122320
12、22-8-1223文本信息可视化文本内容可视化基于关键词的文本内容可视化文档卡片（Document Cards）如右图示例，采用文档卡片法对一篇InfoVis论文的的可视化结果关键图片采用智能算法抽取图片并根据颜色直方图进行分类，从每一类图片中选取的代表性图片2022-8-12242022-8-1224文本信息可视化文本内容可视化时序性的文本可视化主题河流采用河流作为可视原语来编码文档集合中的主题信息将主题隐喻为时间上不断延续的河流提供宏观的主题演化结果辅助用户观察主题的产生、变化和消失等2022-8-12252022-8-1225文本信息可视化文本内容可视化时序性的文本可视
13、化主题河流局限性只能将每个主题在每个时间刻度上概括为一个简单数值一个简单的度量数值不能完整描述主题的细节，如主题内容避免以上局限性，衍生出TIARA系统2022-8-12262022-8-1226文本信息可视化文本内容可视化时序性的文本可视化 TIARA 改进布局算法在可视化中加入能够帮助用户理解文本主题的关键词信息为每个文本主题在每个时间点上提取不同关键词将关键词排布在相应色带上的相应位置根据词的大小表示关键词在该时刻出现的频率2022-8-12272022-8-1227文本信息可视化文本内容可视化时序性的文本可视化 TIARA可视示例 TIARA将标签云技术和主题流相结
14、合描述文本主题在内容上随时间推进而发生的变化2022-8-12282022-8-1228文本信息可视化文本内容可视化时序性的文本可视化 StoryFlow 用来表示电影或者小说里的剧情线或者时间线通过层次渲染的方式来生成一个StoryLine布局2022-8-12292022-8-1229文本信息可视化文本内容可视化时序性的文本可视化 StoryFlow可视示例如图是某部电影的StoryFlow的文本可视表达横轴表示时间，每条线代表一个人物当两个人在剧情中有某种联系的时候，就会在图中相交 StoryFlow允许用户实时交互，包括捆绑操作、删除、移动以及直线化等2022-8-123
15、02022-8-1230文本信息可视化文本内容可视化文本特征的分布模式可视化文本弧（TextArc）文本弧方法用于可视化某文档中的词频和词的分布情况文本弧示例图2022-8-12312022-8-1231文本信息可视化文本内容可视化文本特征的分布模式可视化文本弧示例图解释：整篇文档用一条螺线来表示，螺线开头是文章的首句，末尾是文章的尾句文档的句子按照文字的组织顺序有序布局在螺线上文档中出现的单词填充在画布上，字的大小和颜色深度代表对应的词频单词出现的位置和频率决定了单词在画布中的位置靠近画布中心的词出现比较频繁，局部频繁出现的单词则靠近其相应的螺线区域鼠标单击含所选单词，会绿
16、色高亮表示2022-8-12322022-8-1232文本信息可视化文本内容可视化文本特征的分布模式可视化文献指纹（Literature Fingerprinting）帮助用户了解某一特征在全文中的分布规律采用一系列像素图（文献指纹特征）表达整个文本中的分布可呈现特征的全局分布情况2022-8-12332022-8-1233文本信息可视化文本内容可视化文本特征的分布模式可视化文献指纹（Literature Fingerprinting）示例2022-8-12342022-8-1234文本信息可视化文本内容可视化文本特征的分布模式可视化文献指纹示例说明：文本的度量特征是句子的平均长度
17、每一个像素块代表一段文本一组像素块就代表一本书的“句子平均长度指纹”，其颜色代表文本特征能直观地看出不同作者的写作风格2022-8-12352022-8-1235文本信息可视化文本内容可视化文本特征的分布模式可视化文本特征透镜（Featurs Lens）用于可视化文本特征在一个文档集中不同粒度的分布情况可视化不同层级的文本特征分布既可从文本集合的高度概括性角度查看文本特征的分布也可查看文本特征在底层文本中的分布采用直方图度量频率分布情况，并用三个图来展示统计结果2022-8-12362022-8-1236文本信息可视化文本内容可视化文本特征的分布模式可视化文本特征透镜示例202
18、2-8-12372022-8-1237文本信息可视化文本关系可视化基于图的文本关系可视化单词树（Word Tree）从句法层面可视表达文本词汇的前缀关系利用树型结构来可视化总结文本的句子树的根节点是用户感兴趣的一个词树的子节点是原文中搭配在父节点后面的词或短语字体大小反映词或短语在文中出现的频率2022-8-12382022-8-1238文本信息可视化文本关系可视化基于图的文本关系可视化单词树示例采用单词树方法可视化表达“I have a dream”演讲中有关单词“I”的所有句子2022-8-12392022-8-1239文本信息可视化文本关系可视化基于图的文本关系可视化短语网
19、络（Phrase Nets）采用节点-链接图展示无结构文本中语义单元彼此间的关系节点代表语义单元边代表用户指定的关系箭头指示关系的有向性边的宽度指示这对短语关系在文本中出现的频率2022-8-12402022-8-1240文本信息可视化文本关系可视化基于图的文本关系可视化短语网络示例采用短语网络可视表达某小说中的“*the*”关系2022-8-12412022-8-1241文本信息可视化文本关系可视化基于图的文本关系可视化新闻地图（NewsMap）树图方法也可用于刻画文本间的相似性新闻地图采用树图组织类型相近的新闻2022-8-12422022-8-1242文本信息可视化文本关系
20、可视化文档集合关系可视化星系视图（Galaxy View）采用仿生的方法可视表达文档间的相似性通过投影将所有文档按照主题相似性投影为二维平面的点集点之间的二维距离与其主题相似性成正比2022-8-12432022-8-1243文本信息可视化文本关系可视化文档集合关系可视化星系视图示例越密集的点就代表这一类主题的文档越多多个点簇代表文档集合涉及的多个主题内容2022-8-12442022-8-1244文本信息可视化文本关系可视化文档集合关系可视化主题地貌（ThemeScape）对星系视图的改进在投影基础上采用等高线方式可视表达文档集合中相似文档的分布情况文档越相似，则点分布越密
21、集，从而等高线越紧密，颜色越显著山峰直观简洁地可视化文档集合中涉及的中心主题2022-8-12452022-8-1245文本信息可视化文本关系可视化文档集合关系可视化主题地貌可视示例2022-8-12462022-8-1246文本信息可视化文本关系可视化文档集合关系可视化基于范例的大文本集合投影先少量投影文本到二维空间，再根据用户选取的样例，选择性地将相关的文本进行二维空间的投影2022-8-12472022-8-1247文本信息可视化文本关系可视化文档集合关系可视化基于范例的大文本集合投影上页图（a）所有文本全部投影在二维空间中的结果图（b）显示每类文本中代表性文档的二维投影
22、图（c）在（b）中用矩形框选中的样例文本的投影结果2022-8-12482022-8-1248文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 ContexTour 可视化文档集合所涉及的多个层面的内容和各个层面间的关系以学术文章为例，即会议、作者和关键词这三个方面在数据分析阶段从语义分析论文在每个文本信息层面上的内容聚类结果轮廓线用于刻画论文的聚集情况2022-8-12492022-8-1249文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 ContexTour用多个视图揭示“会议-作者-主题”之间的关联2022-8-12502022-8-1250文本信息可视化文
23、本多层面信息的可视化文本多层面信息的可视化 FaceAtlas 计混合了节点-链接图和气泡集两类视图，用来表达文本各层面信息的内外部联系从文本信息的内容和关系角度出发来分析文本多层面的信息采用圆圈可视编码相关实体编码信息，按照文档的归属布局在空间中，位置较近的属于同一类别实体经核密度估计而获取的轮廓线展示了每个实体的类别信息，每种颜色代表一个层面的实体信息2022-8-12512022-8-1251文本信息可视化文本多层面信息的可视化文本多层面信息的可视化 FaceAtlas示例基于某医疗健康文档，展示了病名、病因、症状、诊断方案等多层面信息，两团分别代表糖尿病1号和糖尿病2号，连线代表它们之间的相似的并发症2022-8-12522022-8-1252文本信息可视化文本多层面信息的可视化文本多层面信息的可视化平行标签云(Parallel Tag Clouds)结合了平行坐标（在多维数据可视化中有介绍）和标签云视图平行坐标每一列表示用户所感兴趣的某一层面的文本信息每一列的标签云表达了该层面的文本内容，连接的折线代表此标签在多个层面的分布2022-8-12532022-8-1253小结文本内容文本关系文本多层面信息展示文本信息的提取和可视表达2022-8-1254THANKS!

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：数据可视化文本数据可视化教学课件.pptx
链接地址：https://www.163wenku.com/p-3325404.html

三亚风情

内容提供者

实名认证

联系作者