《大数据导论》课件第5章 大数据可视化.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《《大数据导论》课件第5章 大数据可视化.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 大数据导论 大数据导论课件第5章 大数据可视化 数据 导论 课件 可视化
- 资源描述:
-
1、第5 5章 大数据可视化提纲5.1 5.1 大数据可视化技术概述大数据可视化技术概述5.2 5.2 大数据可视化技术基础大数据可视化技术基础5.3 5.3 大数据可视化应用大数据可视化应用5.45.4大数据可视化软件和工具大数据可视化软件和工具 本章首先从数据可视化简史和功能角度出发,对大数据可视化技术的基本概念、可视化流程、可视化编码和可视化设计进行了简要介绍。然后介绍了一些大数据可视化的应用领域,包括文本可视化、社交网络可视化、日志数据可视化、地理信息可视化和数据可视化交互等应用。最后介绍了大数据可视化的一些软件和工具,例如VTK、3D Slicer、Python和R语言等。第5章内容概述
2、5.1 大数据可视化技术概述5.1.1 数据可视化简史1)16世纪之前:图表萌芽2)17世纪:物理测量数据可视化3)18世纪:图形符号4)19世纪:数据图形5)1900-1949年:现代启蒙6)1950-1974年:多维信息的可视编码7)1975-1987年:多维统计图形8)1987-2004年:交互可视化9)2005年至今:可视分析学5.1.2 数据可视化的功能 从宏观的角度看,可视化有3个功能:(1)信息记录:将大规模的数据记录下来,最有效的方式就是将信息成像或采用草图记载。不仅如此,可视化呈现还能激发人的洞察力,帮助验证科学假设。(2)信息推理与分析:数据分析的任务通常包括定位、识别、区
3、分、分类、聚类、分布、排列、比较、内外连接比较、关联和关系等。(3)信息传播与协同:将复杂信息传播与发布给公众的最有效途径就是将数据进行可视化,达到信息共享、信息协作、信息修正和信息过滤等目的。5.1.2 数据可视化的功能(1)信息记录 20世纪的三大发现之一DNA分子结构就起源于对DNA结构的X射线衍射照片的分析。如下图5-1所示。图中左边是DNA的B形51号X射线衍射照片;右边是DNA的X射线衍射照片与双螺旋结构的晶体学解释。5.1.2 数据可视化的功能(2)信息推理与分析将信息以可视化的方式呈献给用户,使得用户可以从可视化结果分析和推理出有效的信息,提高认识信息的效率。数据可视化在对上下
4、文的理解和数据推理有独到的作用。19世纪欧洲霍乱大流行的时候,英国医生John Snow绘制了一张伦敦的街区地图如图所示,该图标记了每个水井的位置和霍乱致死的病例地点。该图清晰显示有73个病例集中分布在布拉德街的水井附近,这就是著名的伦敦鬼图。在拆除布拉德街水井摇把之后不久,霍乱就平息了。5.1.2 数据可视化的功能(3)信息传播与协同视觉感知是人类最主要的信息通道,人靠视觉获取了70%以上的信息。俗话说的“一图胜千言”或“百闻不如一见”就是这个意思。将复杂信息传播与发布给公众的最有效途径就是将数据进行可视化,达到信息共享、信息协作、信息修正和信息过滤等目的。以发生在1986年美国“挑战者”号
5、航天飞机失事为例说明数据可视化在信息传播中的重要性。“挑战者”号航天飞机事故的直接原因是两个密封圈的故障,在航天飞机配件生产商提交给NASA的图表上,工程师只列出了密封圈爆裂的相关数据表格,没有足够的说服力。如果采用清晰的可视化图表,或许事故就不会发生。5.1.3 大数据可视化简介1.数据可视化与大数据可视化 数据可视化是关于数据的视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。大数据可视化可以理解为数据量更加庞大,结构更加复杂的数据可视化。大数据可视化侧重于发现数据中蕴含的规律特征,表现形式也多种多样。5.1
6、.3 大数据可视化简介2.大数据可视化的表达1)数据的可视化 数据的可视化的核心的是对原始数据采用什么样的可视化元素来表达。下图呈现的是中国电信区域人群检测系统。5.1.3 5.1.3 大数据可视化简介(2)指标的可视化 在大数据可视化过程中,采用可视化元素的方式将指标可视化,会将可视化的效果增彩很多。下图是对QQ群大数据资料进行可视化分析。图中显示的是将近100G的QQ群数据,其中企鹅图标的节点代表QQ,群图标的节点代表群。每条线代表一个关系,一个QQ可以加入N个群,一个群也可以有N个QQ加入。线的颜色分别代表:黄色为群主;绿色为群管理员;蓝色为群成员。群主和管理员的关系线也比普通的群成员长
7、一些,这是为了突出群内的重要成员的关系。5.1.3 大数据可视化简介(3)数据关系的可视化 数据关系往往也是可视化数据核心表达的主题宗旨。下图是对自然科学领域1431种杂志的文章之间的217287个相互引用关系网络的聚类可视化结果。所有1431个结点被分割聚合为54个模块,每个模块结点是一个聚类,而模块的大小则对应聚类中原来结点的数目。5.1.3 5.1.3 大数据可视化简介(4 4)背景数据的可视化)背景数据的可视化 很多很多时候光有原始数据是不够的,因为数据没有价值,信息才时候光有原始数据是不够的,因为数据没有价值,信息才有价值。设计师马特有价值。设计师马特罗宾森和汤姆罗宾森和汤姆维格勒沃
8、斯用不同的圆珠笔和字体维格勒沃斯用不同的圆珠笔和字体写写“Sample”Sample”这个单词。因为不同字体使用墨水量不同,所以每支笔所剩这个单词。因为不同字体使用墨水量不同,所以每支笔所剩的墨水也不同。于是就产生了这幅很有趣的的墨水也不同。于是就产生了这幅很有趣的图。图。在这幅图中不再需要标注在这幅图中不再需要标注坐标系,因为不同的笔及其墨水含量已经包含了这个信息。坐标系,因为不同的笔及其墨水含量已经包含了这个信息。5.1.3 大数据可视化简介(5)转换成便于接受的形式 大数据可视化完成基本功能后可能还需要优化。优化包括按照人的接受模式、习惯和能力,甚至还需要考虑显示设备的能力,然后进行综合
9、改进,这样才能更好地达到被接受的效果。例如做一个关于“销售计划”的可视化产品,原始数据是销售额列表,采用柱状图来表达;在图表中增加一条销售计划线来表示销售计划数据;最后在销售计划线上增加勾和叉的符号,来表示完成和未完成计划,如此看图表的人更容易接受。5.1.3 大数据可视化简介(6)强化 大数据就必须要讲一讲强化。因为是大数据,所以很多时候数据、信息、符号对于接受者而言是过载的,可能就分辨不出来了,这时我们就需要在原来的可视化结果基础上再进行优化。例如在上述的“销售计划”中,假设这个图表重点是针对没有完成计划的销售员的,那么我们可以强化叉是红色的。如果柱状图中的柱是黑色,勾也是黑色,那么红色的
10、叉更为显眼。(7)集中展示 对这个“销售计划”可视化产品来说,还有很大的完善空间,例如为了让管理者更好地掌握情况,我们可以增加一张没有完成计划的销售人员数据表,这样管理者在掌控全局的基础上,还可以很容易抓住所有焦点,进行逐一处理。5.1.3 5.1.3 大数据可视化简介(8)修饰 修饰是为了让可视化的细节更为精准、甚至优美,比较典型的工作包括设置标题,表明数据来源,对过长的柱子进行缩略处理,进行表格线的颜色设置,各种字体、图素粗细、颜色设置等。(9)完美风格化 所谓风格化就是标准化基础上的特色化,最典型的例如增加企业、个人的LOGO,让人们知道这个可视化产品属于哪个企业、哪个人。而要做到真正完
11、美的风格化,还需要很多不同的操作。例如布局、颜色、图标、标注、线型,甚至动画的时间、过渡等方面,从而让人们更直观地理解和接受。5.2 大数据可视化技术基础 5.2.1 数据可视化流程 数据可视化流程一般以数据流向为主线,主要分为数据采集、数据处理、可视化映射和用户感知这四大模块。整个数据可视化流程可以看成数据流经过一系列处理模块并得到转换的过程。用户可以通过可视化交互与其他模块进行互动,向前面模块反馈而提高数据可视化的效果。具体的数据可视化流程有很多种,下图是一个数据可视化流程的概念模型。5.2.1 5.2.1 数据可视化流程 1.数据采集2.数据处理和变换3.可视化映射4.用户感知 数据可视
12、化流程中的各个模块之间的联系并不是依照顺序的线性联系,而是任意两个模块之间都存在联系。例如,可视化交互是数据可视化过程中,用户控制修改数据采集、数据处理和变换、可视化映射各模块而产生新的可视化结果,并反馈给用户的过程。5.2.2 5.2.2 数据可视化编码 可视化编码(visual encoding)是数据可视化的核心内容。指将数据信息映射成可视化元素,映射结果通常具有表达直观、易于理解和记忆等特性。可视化元素由可视化空间、标记和视觉通道等三方面组成。1.标记和视觉通道 标记通常是一些几何图形元素,如点、线、面、体等,如图所示。5.2.2 数据可视化编码 视觉通道用于控制标记的视觉特征,通常可
13、用的视觉通道包括标记的位置、大小、形状、颜色、方向、色调、饱和度、亮度等,如图所示。标记的选择通常基于人们对于事物理解的直觉。然而,不同的视觉通道在表达信息的作用和能力可能具有截然不同的特性。5.2.2 数据可视化编码 2.可视化编码元素的优先级 数据可视化的有效性取决于用户的感知。尽管不同用户的感知能力会有一定的差别,仍然可以假设大多数人对可视化元素有规律可循。Cleveland等研究人员发现,当数据映射为不同的可视化元素时,人对不同可视化元素的感知准确性是不同的。如图给出了可视化元素在数值型数据可视化中编码优先级。5.2.2 数据可视化编码 数据可视化的对象不仅包含数值型数据,也包括非数值
14、型数据。如图优先级自上而下的基本数据类型适用的可视化编码方式。5.2.2 数据可视化编码 3.统计图表的可视化 柱状图 直方图 饼图 散点图 等值线图 热力图 走势图 颜色映射图 5.2.2 数据可视化编码 根据不同的数据可视化分析需求可以归纳出采用的基本统计图表可视化方法。如图所示。5.2.3 数据可视化设计 1.数据可视化设计标准在进行数据可视化设计时有适合大多数可视化设计的标准可以帮助设计者实现不同风格可视化设计以及寻求最佳设计这些目标。下面列出常见的一部分标准。1)强表达力2)强有效性有效性代表用户对可视化显示信息的理解效率。3)简洁性4)易用性5)美感数据可视化设计的侧重点虽然不是视
15、觉美感,但视觉上的美感可以让用户更易于理解可视化表达的内容,更专注于对数据的考察和度量,从而提高数据可视化的效率。5.2.3 数据可视化设计 2.数据可视化设计的步骤(1)确定数据到图形元素和视觉通道的映射;(2)视图的选择与用户交互控制的设计;(3)数据的筛选即确定在有限的可视化视图空间中选择适量的信息进行编码,以避免在数据量很大的情况下产生视觉混乱。5.2.3 数据可视化设计 3.数据可视化设计的直观性 数据到可视化元素的映射需要充分利用人们已有的先验知识,从而降低人们对信息的感知和认识所需要的时间。如图所示的数据可视化设计实际上是一个散点图的可视化技术应用。5.2.3 数据可视化设计 4
16、.网格及其标注的使用 设计者可通过在水平和竖直方向加均匀网格线提高用户对可视化中点的数值进行比较时的精度。下图展示了网格及其标注是否被合理使用的例子。从左至右分别是网格的过多使用、合理使用和过少使用。可以看出合理使用网格及其标注才能让数据所映射的点被用户很好地理解。5.3 大数据可视化应用 本节主要介绍跨媒体数据中的文本数据、社交网络数据、日志数据和地理信息数据的大数据可视化应用以及大数据可视化的交互应用。5.3.1 5.3.1 文本可视化文本可视化 文本是人类信息交流的主要传播媒体之一,文本信息在人们日常生活中几乎无处不在,如新闻、邮件、微博、小说和书籍等。文本可视化基本流程包括三个主要步骤
17、:即文本处理、可视化映射和交互操作。整个过程应该围绕用户分析的需求设计。下面根据文本的模式或结构、文档的主题或主题分布、文本中的关联等特征方面阐述一些文本数据可视化的经典案例和应用。5.3.1 文本可视化1.标签云 标签云(tag cloud)又称文本云(text cloud)或单词云,是最直观、最常见的对文本关键字进行可视化的方法。标签云一般使用字体的大小与颜色对关键字的重要性进行编码。如图(来源于http:/)是通过改进标签云的布局对泰戈尔的“The Furthest Distance In The World”的内容进行可视化的结果。5.3.1 文本可视化 2.小说视图小说视图(Nove
18、l Views)方法是使用简单的图形将小说中的主要人物在小 说 中 的 分 布 情 况 进 行 可 视 化。下 图(来 源 于http:/ 文本可视化 3.主题山地主题山地(theme scapes)方法使用了抽象的三维山地景观视图隐喻文档集合中各个文档主题的分布,其中高度和颜色用来编码主题相似的文档的密度。如下图所示。4.主题河流主题河流(theme river)是用于时序型文本数据可视化的经典方法。时序型文本通常是指具有内在顺序的文档集合,例如一段时间内的新闻报道、一套丛书等。由于时间轴是时序型文本的重要属性,需要重点考虑时间轴的表示及可视化。如图所示。5.3.1 文本可视化 5.3.2
展开阅读全文