学科服务与参考工作第四章-数据可视化基础.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《学科服务与参考工作第四章-数据可视化基础.pptx》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 学科 服务 参考 工作 第四 数据 可视化 基础
- 资源描述:
-
1、第四章数据可视化基础第 2 页竢实扬华,自强不息目 录CONTENT1 1数据可视化基本框架可视化的基本图表可视化理论发展可视化中的数据可视化设计原则3 35 52 24 4第 3 页竢实扬华,自强不息数据可视化不仅是一门包含各种算法的技术,还是一个具有方法论的学科。实际应用中需要采用系统化的思维设计数据可视化方法与工具。本节通过对数据可视化的基本流程和可视化设计所遵循的多层次模型的讨论,介绍数据可视化的基本框架。4.1数据可视化基本框架“”第 4 页竢实扬华,自强不息4.1.1数据可视化流程图4.1 科学可视化的早期可视化流水线科学可视化和信息可视化分别设计了可视化流程的参考结构模型,并被广
2、泛应用于数据可视化系统中。如图4.1所示,是科学可视化的早期可视化流水线,它描述了从数据空间到可视化空间的映射,包含串行处理数据的各个阶段:数据分析、数据滤波、数据的可视映射和绘制。这个流水线实际上是数据处理和图形绘制的嵌套组合。第 5 页竢实扬华,自强不息4.1.1数据可视化流程图4.2 信息可视化参考流程如图4.2展示了Card,Mackinlay和Shneiderman描述的信息可视化流程模型:将流水线改进成回路且用户的交互可以出现在流程的任何阶段。后继几乎所有著名的信息可视化系统和工具包都支持这个模型,而且绝大多数系统在基础层都兼容,只存在细微的实现差异。第 6 页竢实扬华,自强不息由
3、Jark Van Wijk等人提出的可视化循环模型模式探索第 7 页竢实扬华,自强不息图4.4 由C.Stolte等人提出的可视化循环模型第 8 页竢实扬华,自强不息4.1.1数据可视化流程图4.5 Daniel Keim等人提出的 可视化分析学标准流程可视分析学的基本流程则通过人机交互将自动和可视分析方法紧密结合。如图4.5所示,展示了一个典型的可视化流程图和每个步骤中的过渡形式。这个流水线的起点是输入的数据,终点是提炼的知识。从数据到知识有两个途径:交互的可视化方法和自动的数据挖掘方法。两个途径的中间结果分别是对数据的交互可视化结果和从数据中提炼的数据模型。用户既可以对可视化结果进行交互的
4、修正,也可以调节参数以修正模型。第 9 页竢实扬华,自强不息数据可视化流程中的核心要素包括三个方面。4.1.1数据可视化流程 数据可视化的基础是数据表示与变换。为了允许有效的可视化、分析和记录,输入数据必须从原始状态变换到一种便于计算机处理的结构化数据表示形式。有效表示海量数据的主要挑战是:采用具有可伸缩性和扩展性的方法,以便忠实地保持数据的特性和内容;将不同类型、不同来源的信息合成一个统一的表示,使得数据分析人员能及时聚焦于数据的本质。数据表示与变换第 10 页竢实扬华,自强不息l 将数据以一种直观、容易理解的方式呈现给用户。l 数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码
5、形式。l 判断某个视觉编码是否合适的因素:感知与认知系统的特性、数据本身的属性和目标任务。l 大量的数据采集通常是以流的形式实时获取,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。不仅要求可视化结果有一定的时间连贯性,还要求可视化方法达到高效以便给出实时反馈。需要强大的计算平台(分布式计算)、显示平台(一亿像素显示器)和交互模式(体感交互、可穿戴交互)数据的可视化呈现第 11 页竢实扬华,自强不息汽车品牌和所属国家。上:错误的柱状图;下:正确的散点图柱状图主要用于表达数值信息而不是分类信息,图中雪弗兰对应纵轴上中国、德国、美国等多个国家,并不合理。第 12 页竢实扬华,自强不息l
6、 对数据进行可视化和分析的目的是解决目标任务。目标任务可分为:生成假设、验证假设和视觉呈现。通过可视化能达到目标任务。l 交互是通过可视的手段辅助分析决策的直接推动力。l 适用于海量数据可视化的交互技术还是一个难题,其核心挑战是新型的可支持用户分析决策的交互方法。-涵盖底层的交互方式与硬件、复杂的交互理念与流程,克服不同类型的显示环境和不同任务带来的可扩充性用户交互第 13 页竢实扬华,自强不息4.1.2数据可视化设计图4.4 可视化设计的层次嵌套模型迭代式逐步求精过程数据可视化的设计简化为四个级联的层次。第一层(最外层):问题刻画层。刻画真实用户的问题。第二层:抽象层。将特定领域的任务和数据
7、映射到抽象且通用的任务及数据类型。第三层:编码层。设计与数据类型相关的视觉编码及交互方法。(核心)第四层(最内层):算法实现层。创建正确完成系统设计的算法。第 14 页竢实扬华,自强不息数据可视化将数据变换为易于感知的可视编码。为了精准地通过数据的可视表达传播信息,需要研究数据的分类机器对应的可视编码方法4.2可视化中的数据“”第 15 页竢实扬华,自强不息4.2.1 数据认知l 人们对数据的认知,一般都经过从数据模型到概念模型的过程,最后得到数据在实际中的具体语义。l 数据模型是对数据的底层描述及相关的操作。在处理数据时,最初接触的是数据模型。l 概念模型是对数据的高层次描述,对应于人们对数
8、据的具体认知。概念模型的建立跟实际应用紧密相关。l 对数据进行进一步处理之前,需要定义数据的概念和它们之间的联系。同时定义数据的语义和它们所代表的含义。例如,一组数据:7.8、12.5、14.3首先被看成一组浮点数据,可以应用;“白、黄、黑”视为一组根据颜色分类的数据。第一组数据给从概念模型出发定义为某天的气温值,从而赋予具体语义,并进行下一步分析;第二组数据表示为一组人群中的不同肤色。第 16 页竢实扬华,自强不息4.2.2数据类型表4.1 赛跑比赛排名数据根据数据分析要求,不同的应用可以采用不同的数据分析方法。例如,根据数据模型,可以分为浮点数、整数、字符等;根据概念模型,可以定义数据所对
9、应的实际意义或者对象,例如汽车、摩托车、自行车等分类数据。在科学计算中,通常根据测量标度,将数据分为四类(见表4.1):类别型数据(性别)、有序型数据(排名)、区间型数据和比值型数据。在数据可视化中,我们通常并不区分区间型数据和比值型数据,将数据类型进一步精简为三种:类别型数据、有序型数据和数值型数据。排名姓名时间性别1小赵3分10秒男2小钱3分12秒男3小孙3分18秒男4小李3分40秒女5小周3分52秒男6小吴4分10秒女第 17 页竢实扬华,自强不息l 类别型数据:用于区分物体。例如,男性女性,苹果香蕉橘子等。这些类别可以用于区分一组对象,但是无法提供对象的定量数据。l 有序型数据:用来表
10、示对象的顺序关系。例如,排名为1的运动员比排名为2的运动员跑得更快。根据对象顺序,并不一定能得到准确的定量比较。例如,小赵和小钱的跑步成绩差别并不一定等于小周和小吴间的差别,虽然都是相差1.无法进行定量差别比较。l 区间型数据:用户得到对象间的定量比较。相比有序型数据,能提供详细的定量信息。例如,10度和20度的差别50度和60度的差别。但是,区间型数据基于任意的起始点,所以只能得到对象的相对差别,并不能定义对象的绝对值。例如,0度并不表示没有任何温度。l 比值型数据:用于比较数值间的比例关系。比值型数据基于真正意义上的0点,可以用来精确的定义比例4厘米的物体比2厘米的物体长2倍。跑步成绩属于
11、比值型数据。第 18 页竢实扬华,自强不息不同数据类型使用不同的操作算子区分度算子:=类别型数据、有序型数据、区间型数据、比值型数据序别算子:有序型数据、区间型数据、比值型数据加减算子:+区间型数据、比值型数据乘除算子:比值型数据不同数据类型对应不同的操作集合和统计计算数据类型进一步精简为三种:类别型数据、有序型数据和数值型数据。基础的可视化设计和编码一般针对这三种,复杂型数据通常是这三类数据的组合或变化。第 19 页竢实扬华,自强不息不同类型的数据及其所对应的操作计算第 20 页竢实扬华,自强不息l 统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的
12、大型可视化系统来说,这类图表更是作为基本的组成元素而不可缺少。l 本节介绍一些基本图表及其属性和适用的场景。通过实例介绍,读者能了解和认识可视化设计所遵循的准则。4.3可视化的基本图表“”第 21 页竢实扬华,自强不息01数据轨迹02柱状图03直方图04饼图4 饼图饼图采用了饼干的隐喻,用环状方式呈现各分量在整体中的比例。这种分块方式是环状树图等可视表达的基础。2 柱状图柱状图采用长方形的形状和颜色编码数据的属性。堆叠图(stacked graph):柱状图的每根直柱内部用像素编码。3 直方图直方图是对数据集的某个数据属性的频率统计。双直方图将两个数据集的频率统计信息(即直方图)分别沿横轴对称
13、呈现。直方图可以扩展到多维。1 数据轨迹数据轨迹是一种标准的单变量数据呈现方法:x轴显示自变量;y轴显示因变量。可直观呈现数据分布、离群值、均值的偏移等。4.3.1 原始数据绘图用于可视化原始数据的属性值,直观呈现数据特征,代表性(九种)第 22 页竢实扬华,自强不息数据轨迹Twitter舆情系统根据用词的贬褒程度对公司的打分。比较了美国网络影视服务和租赁商的分数,为多个数据集的单变量数据轨迹,日期是自变量,分数是因变量。股票K线图,时间是自变量,股指是因变量第 23 页竢实扬华,自强不息柱状图标准柱状图堆叠图,不同国家的不同能源消耗量第 24 页竢实扬华,自强不息直方图直方图(histogr
14、am)VS 柱状图(bar chart):直方图的各个部分之和等于单位整体,而柱状图的各个部分之和没有限制。第 25 页竢实扬华,自强不息直方图双直方图第 26 页竢实扬华,自强不息5 等值线图等值线图使用相等数值的数据点连线来表示数据的连续分布和变化规律。等值线图中的曲线是空间中具有相同数值的数据点在平面上的投影。平面地图山的地形等高线、等温线、等湿闲等都是等值线图在不同领域的应用。6 走势图走势图是一种紧凑简洁的数据趋势表达方式,它通常以折线图为基础,用来表示数据随某一变量(时间、空间)变化趋势。大小与文本相仿,往往直接嵌入在文本或表格中。7 散点图散点图是表示二维数据的标准方法。在散点图
15、中,所有数据以点的形式出现在笛卡尔坐标系中,每个点所对应的横纵坐标即代表该数据在坐标轴所表示维度上的属性值大小。散点图矩阵是展现高维数据属性分布,可以通过尺寸、形状和颜色等编码信息。8 维恩图维恩图使用平面上的封闭图形来表示数据集合间的关系。维恩图在一张平面上表示集合间的所有逻辑关系,被广泛用于集合关系展示。4.3.1 原始数据绘图05 0607 08第 27 页竢实扬华,自强不息二维高斯分布的立体图和平面等值线图第 28 页竢实扬华,自强不息走势图走势图常用于商业数据表达,如股票走势、市场行情等。和数据轨迹图类似,但是尺寸更小。第 29 页竢实扬华,自强不息散点图矩阵第 30 页竢实扬华,自
16、强不息维恩图四集合维恩图的不同画法319 热力图(Heat map)热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置关系排列,每个数据点的颜色编码数据大小,如图4.17所示:第 31 页竢实扬华,自强不息4.3.1 原始数据绘图图4.17 使用热力图表示杭州市公共自行车租车点的繁忙程度(由红色至绿色递减)第 32 页竢实扬华,自强不息4.3.2简单统计值标绘图4.6 盒须图的标准表示(左图)及其若干变种 盒须图是John Tukey发明的通过标绘简单的统计值来呈现一维和二维数据分布的一种方法。它的基本形式是用一个长方形盒子表示数据的大致
17、范围(数据值范围的25%75),并在盒子中用横线标明均值的位置。同时,在盒子上部和下部分别用两根横线标注最大值和最小值。盒须图在实验数据的分析中非常有用。针对二维数据,标准的一维盒须图可扩充为二维盒须图。(见图4.6)第 33 页竢实扬华,自强不息第 34 页竢实扬华,自强不息4.3.3 多视图协调关联多视图协调关联(multiple coordinated views)将不同种类的绘图组合起来,每个绘图单元可以展现数据某个方面的属性,并且通常允许用户进行交互分析,提升用户对数据的模式识别能力。在多视图协调关联应用中,“选择”操作作为一种探索办法,可以是对某个对象和属性进行“取消选择”的过程,
18、也可以是选择属性的子集或对象的子集,以查看每个部分之间的关系的过程。第 35 页竢实扬华,自强不息探索式基因可视分析过程MizBee的设计基于知觉原则,包括几种技术,如边缘捆绑和分层,以增强与接近度,大小,相似性和方向相关的保护关系的视觉提示。第 36 页竢实扬华,自强不息如图所示,总结了根据分析需求可采用的统计可视化方法。图 基本的统计图表可视化方法和适用规则第 37 页竢实扬华,自强不息可视化的首要任务是准确地展示和传达数据所包含的信息。在此前提下,针对特定的用户对象,设计者可以根据用户的预期和需求,提供有效辅助手段以方便用户理解数据,从而完成有效的可视化。4.4可视化设计原则“”第 38
19、 页竢实扬华,自强不息设计一个可视化视图包括三个主要步骤:-确定数据到图形元素(即标记)和视觉通道的映射;-视图的选择与用户交互控制的设计;-数据的筛选,即确定在有限的可视化视图空间中选择适当容量的信息进行编码,以避免在数据量过大情况下产生的视觉混乱。即可视化结果中要保持合理的信息密度。为提高可视化结果的有效性,可视化设计还包括颜色、标记、动画的设计等。第 39 页竢实扬华,自强不息4.4.1数据到可视化的直观映射图 基本数据类型适用的可视化编码方式(优先级自上而下)在选择合适的数据到可视化元素(标记和视觉通道)的映射时,设计者首先需要考虑的是数据的语义和可视化用户的个性特征。一般而言,可视化
20、的一个核心作用是使用户在最短的时间内获取数据的整体信息和大部分细节信息,这通过直接观察数据显然无法完成。数据到可视化元素的映射需充分利用已有的先验知识,从而降低人们对信息的感知和认知所需要的时间。对于基本数据类型,可以通过使用不同的视觉编码通道来表达数据及其之间的关系。(见图)第 40 页竢实扬华,自强不息4.4.1数据到可视化的直观映射图4.9 使用散点图的形式可视化行星到太阳的距离和行星公转时间实际应用中的数据通常是基础数据类型的实例和组合,其可视化方法一般为采用基于不同视觉编码通道的组合。如图4.9所示的可视化设计使用的是散点图,在点标记的选择上设计者使用了众所周知的一些纹理贴图以表示不
21、同的行星,用横轴表示距离,纵轴表示公转时间,同时使用了标签对各行星的数据进行标注。第 41 页竢实扬华,自强不息可视化系统也可以向用户提供一些灵活特性。例如,左图将时间和空间分别映射为横轴和纵轴,可以呈现时空演化的事件。图:复活节前一周耶稣活动记录可视化。全周时间沿横轴从左到右布局,灰色长块区域表现了空间,不同颜色的管道线的位置远近编码了人物之间的互动。第 42 页竢实扬华,自强不息4.4.2 视图选择与交互设计对于简单的数据,使用一个基本的可视化视图就可以展现数据的所有信息;对于复杂的数据,就需要使用较为复杂的可视化视图,甚至为此发明新的视图,以有效的展示数据中所包含的信息。一般而言,一个成
22、功的可视化首先需要考虑的是被用户所广泛认可并熟悉的视图设计。此外,可视化系统还必须提供一系列的交互手段,使得用户可以按照自己满意的方式修改视图的呈现形式。第 43 页竢实扬华,自强不息数据缩放和裁剪工具在对数据进行可视映射之前,用户通常会对数据进行缩放并对可视化数据的范围进行必要的裁剪,从而控制最终可视化的数据内容。LOD控制细节层次(level-of-detail)控制有助于在不同的条件下隐藏或者突出数据的细节部分。0504滚动与缩放当数据无法在当前有限的分辨率下完整展示时,滚动与缩放是非常有效的交互方式。颜色映射的控制调色盘是可视化系统的基本配置。同样,允许用户修改或者制作新的调色盘也能增
展开阅读全文