大数据可视化技术第7章-复杂数据可视化ppt课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据可视化技术第7章-复杂数据可视化ppt课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 可视化 技术 复杂 ppt课件
- 资源描述:
-
1、第7章 复杂数据可视化复杂数据可视化背景 IDC全球大数据支出指南 庞大的产业推动着移动互联网、物联网等领域信息的产生和流动,越来越多复杂且瞬息万变的数据被记录和研究,如视频影像数据、传感器网络数据、社交网络数据的时空数据等。对此类具有高复杂度的高维多元数据进行解析、呈现和应用是数据可视化面临的新挑战。面临的困难 数据复杂度大大增加。数据的量级大大增加。数据质量的问题。实时分析与可视化技术存在一定问题常规的可视化方法 散点图:将各属性的值映射到不同的坐标轴,并确定数据点在坐标系中的位置。当维度超过三维后,就需要增加更多视觉编码来表示其他维度的数据,如颜色、大小、形状等。视觉编码的增多会使可视化
2、的效果变差,而且能增加的表示维度有限,这种方法还是有局限性。高维多元数据在大数据中的应用 高维多元数据指每个数据对象有两个或两个以上独立或者有相关属性的数据。高维(Multidimensional)指数据具有多个独立属性,多元(Multivariate)指数据具有多个相关属性。若要科学、准确地描述高维多元数据,则需要数据同时具备独立性和相关性。在很多情况,数据的独立性很难判断,所以一般简单的称之为多元数据。例如:笔记本电脑的屏幕、CPU、内存、显卡等配置信息就是一个多元数据,每个数据都描述了笔记本电脑的一方面的属性。可视化技术常被用于多元数据的理解,进而辅助分析和决策。高维多元数据在大数据中的
3、可视化方法 空间映射法 散点图 表格透镜 平行坐标 降维 图标法空间映射法散点图 散点图:本质是将抽象的数据对象映射到二维坐标表示的空间。若处理的是多元数据,散点图的概念可理解成:在二维的平面空间中,采用不同的空间映射方法对高维数据进行布局,这些数据的关联以及数据自身的属性在不同位置得到了展示,而整个数据集在空间中的分布则反映了各维度间的关系及数据集的整体特性。空间映射法散点图 散点图矩阵是散点图的扩展。对于N维数据,采用N2个散点图逐一表示N个属性之间的两两关系,这些散点图根据它们所表示的属性,沿横轴和纵轴按一定顺序排列,进而组成一个NxN的矩阵。空间映射法散点图 随着数据维度的不断扩展,所
4、需散点图的数量将呈几何级数的增长,而将过多的散点图显示在有限的屏幕空间中则会极大地降低可视化图表的可读性。目前比较常见的方法就是交互式地选取用户关注的属性数据进行分析和可视化。通过归纳散点图特征,优先显示重要性较高的散点图,也可以在一定程度上缓解空间的局限。空间映射法表格透镜 表格透镜(Table Lens)是对使用表格呈现多元数据(如 Excel等软件)方法的扩展。该方法并不直接列出数据在每个维度上的值,而是将这些数值用水平横条或者点表示。空间映射法表格透镜 表格透镜允许用户对行(数据对象)和列(属性)进行排序,用户也可以选择某一个数据对象的实际数值。如图所示,表格透镜清晰地呈现了数据在每个
5、属性上的分布和属性之间的相互关系。空间映射法平行坐标 平行坐标能够在二维空间中显示更高维度的数据、它以平行坐标替代垂直坐标,是一种重要的多元数据可视化分析工具。平行坐标不仅能够揭示数据在每个属性上的分布,还可描述相邻两个属性之间的关系。平行坐标很难同时表现多个维度间的关系,因为其坐标轴是顺序排列的,不适合于表现非相邻属性之间的关系。空间映射法平行坐标 一般地,交互地选取部分感兴趣的数据对象并将其高亮显示,是一种常见的解决方法。另外,为了便于用户理解各数据维度间的关系,也可更改坐标轴的排列顺序。空间映射法降维 当数据维度非常高时(如超过50维),目前的各类可视方法都无法将所有的数据细节清晰地呈现
6、出来。在这种情况下,我们可通过线性/非线性变换将多元数据投影或嵌入低维空间(通常为二维或三维)中,并保持数据在多元空间中的特征,这种方法被称为降维降维(Dimension Reduction)。降维后得到的数据即可用常规的可视化方法进行信息呈现。图标法 图标法的典型代表是星形图(Starplots),也称雷达图(Radar Chart)星形图可以看成平行坐标的极坐标形式,数据对象的各属性值与各属性最大值的比例决定了每个坐标轴上点的位置,将这些坐标轴上的点折线连接围成一个星形区域,其大小形状则反映了数据对象的属性。图标法非结构化数据可视化 基于并行的大尺度数据高分辨率可视化 分而治之的大尺度数据
7、分析与可视化 统计分析层的分而重组 条件变量分割法 重复分割法 数据挖掘层的分而治之 数据可视化的分而治之基于并行的大尺度数据高分辨率可视化 复杂数据并不只有高维度数据。还包括异构数据等。异构数据是指在同一个数据集中存在的如结构或者属性不同的数据。存在多个不同种类节点和连接的网络被称为异构网络异构网络。异构数据通常可采用网络结构进行表达。基于并行的大尺度数据高分辨率可视化 基于异构社交网络的本体拓扑结构表达了某组织网络中的多种不同类别的节点。由于数据量大并且复杂度高,不能直接使用网络点线图进行可视化。我们可以采用从异构网络中提炼出本体拓扑结构的策略,其中的节点是原来网络内的节点类型,连接相互之
8、间存在关联的类别。基于并行的大尺度数据高分辨率可视化 产生数据的异构性的主要原因是数据源的获取方式的不同。合理地整合底层的数据至关重要。基本技术路线就是构建大规模计算集群。例如,美国的马里兰大学构建了一个GPU和CPU混合式高性能计算和可视化集群分而治之的大尺度数据分析与可视化 可视化领域以及计算机图形学有一种标准方法叫作分治(Divide and Conquer)法,如二叉树、四叉树等空间管理结构等。本节将从统计、数据挖掘和可视化等几个领域介绍分而治之的概念。统计分析层的分而重组 R语言面向统计分析的底层,是一门开源语言。将数据划分为多个子集,对这些子集使用相应的方法来进行可视化的操作,最后
9、再合并总体结果,这种方式就称为分而重组分而重组。分而重组的核心思想包含拆分(Divide)和重合(Recombine)。统计分析层的分而重组 拆分 条件变量分割法:一部分变量被选为条件变量,并且被分配到每个子集里。BSV(Between Subset-Variables)在不同子集中的取值各异,且一个子集在同一时间只能有一个BSV变量:WSV(Within-Subset Variables)则在同一个子集里取值。技术人员通过分析WSV伴随BSV的变化以及WSV之间的关系来确保分割的准确性。统计分析层的分而重组 拆分 重复分割法:重复分割法中的数据被看作是包含r个変量的n个观察值,被认为是重复数
10、。如果采用随机重复分割法对随机观察值不替换地产生子集,这种做法虽然处理速度快,但是各子集缺乏代表性。如果采用近邻别除重复分割法,则n个观察值将被分割成拥有近乎相同观测值的邻居集合。统计分析层的分而重组 重合 统计重合法:合成各个子集的统计值,通常,我们根据不同的分割算法如近邻剔除重复分割法等方法的效果对比,选择最优的重合方案 分析重合法:观察、分析和评估计算结果 可视化重合法:以小粒度观察数据的方法,并使用了多种抽样策略,包括聚焦抽样和代表性抽样。数据挖掘层的分而治之 使用分而后合的方法对数据进行分类大体分为三个步骤:首先,输入数据或者文本信息,将输入数据等份成n份或者按规则划分;然后,对每份
11、数据使用最适合的分类器进行分类,并将分类结果融合;最后,通过一个强分类器计算获取最终结果。数据可视化的分而治之 大规模科学计算的结果之所以适合采用多核并行模式和分而治之法进行处理,是因其通常体现为规则的空间型数据。标准的科学计算数据的并行可视化可采用计算密集型的超级计算机、计算集群和GPU集群等模式。目前比较流行的 Hadoop和 Mapreduce等处理框架通常被用来处理非空间型数据,Mapreduce框架应用于科学计算的空间型数据,这就意味着使用统一的分而治之的框架可以处理科学计算的空间型数据和非结构化数据。主要内容:什么是数据可视化什么是数据可视化数据可视化流程数据可视化流程数据的可视化
12、呈现数据的可视化呈现用户交互用户交互什么是数据可视化“可视化”或它的全称“科学计算可视化”(Visualization in ScientificComputing,ViSC)一词是在1987年根据美国国家科学基金会召开的“科学计算可视化研讨会”内容撰写的一份报告中正式提出的。在短短20余年历史中,科学计算可视化发展成为一个十分活跃的研究领域,新的研究分支不断涌现,如出现了用于表示海量数据不同类型及其逻辑关系的信息可视化技术,以及将可视化与分析相结合的可视分析学研究方向。现在又有了把“科学计算可视化”、“信息可视化”和“可视分析学”这三个分支整合在一起的新学科“数据可视化”。石教英 浙江大学计
13、算机辅助设计与图形学国家重点实验室在计算机学科的分类中,利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术,称为可视化。它将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数据识别效率,传递有效信息。唐泽圣、陈为.可视化条目.中国计算机大百科全书,2011年修订版可视化通常被理解为一个生成图形图像的过程。更深刻的认识是,可视化是认知的过程,即形成某个物体的感知图像,强化认知理解。因此,可视化的终极目的是对事物规律的洞悉,而非所绘制的可视化结果本身。这包含多重含义:发现、决策、解释、分析、探索和学习。因此,可视化可简明地定义为“通过可视表达增强人们完成某些任务的效率
14、”。Matthew Ward,Georges Grinstein,Daniel Keim.Interactive DataVisualization:Foundations,Techniques,and Applications.May,2010什么是数据可视化科学可视化、信息可视化和可视分析三者之间没有清科学可视化、信息可视化和可视分析三者之间没有清晰边界。晰边界。科学可视化科学可视化的研究重点是带有空间坐标和几何信息的医学影像数据、三维空间信息测量数据、流体计算模拟数据等。信息可视化信息可视化的核心问题主要有高维数据的可视化、数据间各种抽象关系的可视化、用户的敏捷交互和可视化有效性的评断等
15、。可视分析可视分析偏重于从各类数据综合、意会和推理出知识,其实质是可视地完成机器智能和人脑智能的双向转换,整个探索过程是迭代的、螺旋式上升的过程。数据可视化流程 数据可视化不仅是一门包含各种算法的技术,还是一个具有方法论的学科。因此,在实际应用中需要采用系统化的思维设计数据可视化方法与工具。数据可视化流程数据可视化流程中的核心要素包括三个方面。1.1.数据表示与变换数据表示与变换数据可视化的基础是数据表示和变换。为了允许有效的可视化、分析和记录,输入数据必须从原始状态变换到一种便于计算机处理的结构化数据表示形式。2.2.数据的可视化呈现数据的可视化呈现数据可视化向用户传播了信息,而同一个数据集
16、可能对应多种视觉呈现形式,即视觉编码视觉编码。数据可视化的核心内容是从巨大的呈现多样性空间中选择最合适的编码形式。大量的数据采集通常是以流的形式流的形式实时获取的,针对静态数据发展起来的可视化显示方法不能直接拓展到动态数据。这不仅要求可视化结果有一定的时间连贯性,还要求可视化方法达到高效以便给出实时反馈。因此不仅需要研究新的软件算法新的软件算法,还需要更强大的计算平台更强大的计算平台(如分布式计算或云计算)、显示平台显示平台(如一亿像素显示器或大屏幕拼接)和交互模式交互模式(如体感交互、可穿戴式交互)。3.3.用户交互用户交互交互是通过可视的手段通过可视的手段辅助分析决策的直接推动力。有关人机
17、交互的探索已经持续很长时间,但智能、适用于海量数据可视化的交互技术智能、适用于海量数据可视化的交互技术,如任务导向的、基于假设的方法还是一个未解难题任务导向的、基于假设的方法还是一个未解难题,其核心挑战是新型的可支持用户分析决策的交互方法。这些交互方法涵盖底层的交互方式与硬件、复杂的交互理念与流程,更需要克服不同类型的显示环境和不同任务带来的可扩充性难点。数据可视化设计数据可视化的设计简化为四个级联的层次(见图1)。1.简而言之,最外层(第一层)是刻画真实用户的问题,称为问题刻画层问题刻画层。2.第二层是抽象层抽象层,将特定领域的任务和数据映射到抽象且通用的任务及数据类型数据类型。3.第三层是
18、编码层编码层,设计与数据类型相关的视觉编码视觉编码及交互方法交互方法。4.最内层(第四层)的任务是创建正确完成系统设计的算法算法。数据的可视化呈现(基本图表)统计图表是最早的数据可视化形式之一,作为基本的可视化元素仍然被非常广泛地使用。对于很多复杂的大型可视化系统来说,这类图表更是作为基本的组成元素而不可缺少。图1 单变量数据轨迹数据轨迹。股票K线图,时间是自变量,股指是因变量图2 左:标准的柱状图柱状图(Bar ChartBar Chart);右:增强版柱状图(也称堆叠堆叠图图),编码对比了几个国家不同年龄段人口数量。图3 不同的直方图直方图(HistogramHistogram)分布形态。
展开阅读全文