欢迎来到163文库! | 帮助中心 精品课件PPT、教案、教学设计、试题试卷、教学素材分享与下载!
163文库
全部分类
  • 办公、行业>
  • 幼教>
  • 小学>
  • 初中>
  • 高中>
  • 中职>
  • 大学>
  • 招考、培训>
  • ImageVerifierCode 换一换
    首页 163文库 > 资源分类 > PPTX文档下载
    分享到微信 分享到微博 分享到QQ空间

    第6章 数据可视化.pptx

    • 文档编号:6713373       资源大小:8.49MB        全文页数:48页
    • 资源格式: PPTX        下载积分:20文币     交易提醒:下载本文档,20文币将自动转入上传用户(无敌的果实)的账号。
    微信登录下载
    快捷注册下载 游客一键下载
    账号登录下载
    二维码
    微信扫一扫登录
    下载资源需要20文币
    邮箱/手机:
    温馨提示:
    快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。
    如填写123,账号就是123,密码也是123。
    支付方式: 支付宝    微信支付   
    验证码:   换一换

    优惠套餐(点此详情)
     
    账号:
    密码:
    验证码:   换一换
      忘记密码?
        
    友情提示
    2、试题类文档,标题没说有答案的,则无答案。带答案试题资料的主观题可能无答案。PPT文档的音视频可能无法播放。请谨慎下单,否则不予退换。
    3、PDF文件下载后,可能会被浏览器默认打开,此种情况可以点击浏览器菜单,保存网页到桌面,就可以正常下载了。
    4、本站资源下载后的文档和图纸-无水印,预览文档经过压缩,下载后原文更清晰。
    5、本站不支持迅雷下载,请使用电脑自带的IE浏览器,或者搜狗浏览器、谷歌浏览器下载即可。。

    第6章 数据可视化.pptx

    1、大数据导论目录6.1数据可视化类型6.2数据可视化基础6.3数据可视化评估6.4学生作品第6章 数据可视化大数据时代的数据复杂性更高,如数据的流模式获取、非结构化、语义的多重性等方面有所体现。数据可视化是指综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或动画,并允许用户对数据进行交互分析的理论、方法和技术。数据可视化能将不可见现象转换为可见的图形符号,然后从中发现规律和获取知识。今天,为什么更需要数据可视化?原因:1,2,3,4,。简、见、值简、见、值查找设计中不协调的地方离完美差一点点企业报表企业驾驶舱学习目标实验准备实验准备软件软件Tablea

    2、u安装安装网站:网站:获得一年免费使用权获得一年免费使用权加入加入Tableau社区,观看在线授课社区,观看在线授课采集数据及清洗采集数据及清洗产生至少产生至少3个以上工作簿,进一步设计仪表板个以上工作簿,进一步设计仪表板学生直播交流学生直播交流 16.1 数据可视化类型数据可视化类型科学可视化面向科学和工程领域数据,如含空间坐标和几何信息的三维空间测量数据、计算模拟数据和医学影像数据等,重点探索如何以几何、拓扑和形状特征来呈现数据中蕴含的规律。信息可视化的处理对象则是非结构化、非几何的抽象数据,如金融交易、社交网络和文本数据,其核心挑战是针对大尺度高维复杂数据如何减少视觉混淆对有用信息的干扰

    3、。由于数据分析的重要性,将可视化与分析结合,形成一个新的学科:可视分析学。1.2.3.数据可视化类型科学可视化信息可视化科学可视化向量场可视化张量场可视化标量场可视化科学可视化类型可视分析学l标量指单个数值,标量场指每个数据点记录一个标量值。l标量值的来源分为两类:1.从扫描或测量设备获得,如医学断层扫描设备获取的CT,MRI三维影像 2.从计算机或机器仿真中获得,如核聚变模拟中产生的壁内温度分布。数据可视化类型科学可视化信息可视化科学可视化向量场可视化科学可视化类型可视分析学标量场可视化向量场每个采样点记录一个向量(一维数据)向量代表某个方向、趋势,例如实际测得的风向、旋涡;数据仿真计算得出

    4、的速度和力等。在实际应用中,二维或三维流场是最常见的向量场,流场可视化是向量场可视化中最重要的组成部分。张量场可视化数据可视化类型科学可视化信息可视化科学可视化科学可视化类型可视分析学标量场可视化张量是矢量的推广:标量可看作0阶张量,矢量可看作1阶张量。张量场可视化向量场可视化张量场可视化方法可分为基于纹理、几何、拓扑三类。基于纹理的方法将张量场转换为一张或动态演化的图像(纹理),图释张量场的全局属性,其思路是将张量场简化为向量场,进而采用线积分法、噪声纹理法等方法显示。科学可视化应用软件3D Slicer数据可视化类型科学可视化信息可视化可视分析学3D Slicer是一个免费的、开源的、跨平

    5、台的医学图像分析与可视化软件,广泛应用于科学研究与医学教育领域。Slicer支持Windows,Linux和Mac OSX等平台。slicer支持包括医学图像分割、配准在内的很多功能。如图6-1为使用3D Slicer的肺部效果图。图6-1 3D Slicer肺部效果图科学可视化应用软件ArcGIS数据可视化类型科学可视化信息可视化可视分析学ArcGIS是美国Esri公司开发的地理信息软件。ArcGIS通过基本的地图、地理信息,为用户通过方便快速的地理数据映射,并提供开发工具包为开发新的应用提供支持。ArcGIS可以将结果嵌入到Excel报表中,在微软office程序中插入地理信息数据显示。如

    6、图6-2为ArcGIS绘制地理效果图。图6-2 ArcGIS绘制地理效果图科学可视化应用软件Visualization Toolkit数据可视化类型科学可视化信息可视化可视分析学Visualization Toolkit,简称VTK(http:/www.vtk.org/),是一个开源、跨平台的可视化应用函数库。它的主要维护者Kitware公司,创造了VTK,ITK,Cmake,ParaView等众多开源软件系统。VTK的设计目标是在三维图形绘制底层库OpenGL基础上,采用面向对象的设计方法,构建用于可视化应用程序的支撑环境。如图6-3为使用VTK绘制效果图。图6-3 VTK绘制效果图信息可视

    7、化应用软件CiteSpace是由可视化专家Chaomei Chen 教授开发的一款文献分析的可视化软件,主要面向科研论文之间相互引用所构成的网络。citespace的数据来源于web of science,分析过程包括确定主题词和专业术语、收集数据、提取研究前沿术语、时区分割、阈值选择、显示、可视检测和验证关键点八个步骤。如图6-4为利用CiteSpace绘制效果图。CiteSpace数据可视化类型科学可视化信息可视化可视分析学图6-4 CiteSpace效果图信息可视化应用软件Data driven documents(D3)是一套面向Web的二维数据变换与可视化方法。它以轻量级的浏览器端应

    8、用为目标,具有良好的可移植性。D3.js是基于D3规范的JavaScript库,基于HTML、SVG(向量图形)和CSS构建,前身是美国斯坦福大学研发的Protovis(目前已停止更新)。D3可以将任意数据绑定到一个DOM,并对文档实施基于数据的变换。例如,将一组数字生成为一个HTML表,或用相同的数据生成一个可交互的SVG条形图。如图6-5为D3工具绘制的各类可视化效果图。D3数据可视化类型科学可视化信息可视化可视分析学图6-5 D3绘制可视化效果图信息可视化应用软件Gephi是一个应用于各种网络、复杂系统和动态分层图的交互可视化和探索平台,支持Windows,Linux和Mac等各种操作系

    9、统。可用于探索性数据分析、链接分析、社交网络分析和生物网络分析等,其设计初衷是采用简洁的点和线描绘与呈现丰富的世界。如图6-6为Gephi工具的可视化效果图。Gephi数据可视化类型科学可视化信息可视化可视分析学图6-6 Gephi可视化效果图数据可视化类型科学可视化信息可视化可视分析学可视分析学 可视分析学被定义为一门由可视交互界面为基础的分析推理科学由可视交互界面为基础的分析推理科学。它综合图形学、数据挖掘和人机交互等技术,如图6-7(a)所示。可视分析学可看成将可视化、人的因素和数据分析集成在内将可视化、人的因素和数据分析集成在内的一种新思路。如图6-7(b)所示,诠释了可视分析学包含的

    10、研究内容。图6-7 可视分析学(a)可视分析的学科交叉组成(b)可视分析学涉及的学科可视分析学软件GapMinderTrendalyzer是瑞士Gapminder基金会开发的一个用于分析时变多变量数据变化趋势的可视分析软件。它采用互动的可视化形式动态地展示了世界各地、各机构公开的各项人文、政治、经济和发展指数,在信息产业界产生了积极的影响。如图6-8所示为GapMinder工具可视化效果图。GapMinder数据可视化类型科学可视化信息可视化可视分析学图6-8 GapMinder工具可视化效果图可视分析学软件Google Public Data Explorer 使用Google的datase

    11、t publishing language(DSPL)数据发布语言,支持各类数据库链接,进行可视化的定制。它的优点是上传接口简单易行,所有操作都在网页上完成,而可视化的结果则用Flash的形式展现,并且允许用户嵌入到第三方网站中或者分享给其他用户,基本满足普通用户的统计数据分析需求。Google Public Data Explorer数据可视化类型科学可视化信息可视化可视分析学Palantir是可视分析领域的标杆性软件,为政府机构和金融机构提供高级数据分析服务。Palantir的主要功能是链接网络各类数据源,提供交互的可视化界面,辅助用户发现数据间的关键联系,寻找隐藏的规律或证据,并预测将来

    12、可能发生的事件。Palantir26.2 数据可视化基础数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻数据可视化流程 数据采集:数据是可视化的对象。数据的采集直接决定了数据的格式、维度、尺寸、分辨率和精确度等重要性质,并在很大程度上决定了可视化结果的质量。数据处理和变换:数据的处理和变换可以认为是可视化的前期处理。一方面原始数据不可避免含有噪声和误差。另一方面,数据的模式和特征往往被隐藏。可视化映射:可视化映射是整个可视化流程的核心。该步骤将数据的数值、空间坐标、不同位置数据间的联系等映射为可视化视觉通道的不同元素,如标记、位置、形状、大小和颜色等。用户感知:用户感知从数据

    13、的可视化结果中提取信息、知识和灵感。可视化映射后的结果只有通过用户感知才能转换成知识和灵感。用户的目标任务可分成三类:生成假设、验证假设和视觉呈现。数据滤波器在信号处理中的作用是从数据信号中去除不需要的部分。在可视化中常采用数据滤波来去燥。事实上,在数据采集的过程中噪声不可避免。如果数据来源于传感器,那么仪器的误差和环境中的光、电、磁信号噪声会造成数据中的噪声。如果数据源于模拟计算,则初始数据、计算参数、计算网格的不确定性和数值计算精度的限制会造成数据中的噪声。这些噪声在可视化中会覆盖数据本身的特征,形成对用户的误导。数据滤波数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻数

    14、据处理和变换数据降维 数据可视化的显示空间通常是二维的。高维数据的数据降维方法有多种,包括将高维数据压缩在低维可以显示的空间中;设计新的可视化空间;直观呈现不同维度的相似程度等。数据降维的方法分为线性和非线性两类:线性方法包括多维尺度分析、主成分分析和非负矩阵分解;非线性方法的代表有ISOMAP、SOM和局部线性嵌套等。原始数据以离散形式出现在数据采集、存储和计算的环节,在将离散数据转化为连续信号进行处理或将数据的维度和粒度进行变换时,需要对数据进行重新采样,使之满足所要求的分辨率、精度、粒度或尺度。针对离散数据集,往往通过插值法得到给定位置处的采样数据。图6-9(a)(d)展示了三种一维空间

    15、中的插值方法。数据采样数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻数据处理和变换图6-9 一维数据插值(a)原始数据;(b)分段常数插值;(c)线性插值;(d)多项式插值高维、大尺度和多变量数据导致可视化时信息超载。通过聚类可以将数据中类似的采样点放在同一类中,在可视化中仅显示类别,而隐藏具体的数据点,以减少视觉干扰并展示数据中重要的结构。与简单的降维和插值不同,利用聚类和切分可以将数据中有相似特征的区域和相邻区域分开,并基于数据本身性质和特征来实现数据的简化。数据聚类和剖分数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻数据处理和变换层次聚类法K均值聚

    16、类法聚类方法 可视化映射是信息可视化的核心步骤,指将数据信息映射成可视化元素,映射结果通常具有表达直观、易于理解和记忆等特性。可视化元素由三方面组成:可视化空间、标记、视觉通道。如图6-10所示,列举了一个应用标记和视觉通道进行信息编码的简单例子:柱状图中,每个条状的高度编码了相应属性所具有的数量大小。然后,通过增加一个水平位置的视觉通道,可以表示另外一个不相关的属性,从而获得一个散点图的可视化表达。图 可视化表达应用举例数据采集&数据预处理数据挖掘数据可视化大数据类型重点难点视觉编码l标记是数据属性到可视化元素的映射,用以直观地代表数据的属性归类;l标记通常是一些几何图形元素,如点、线、面、

    17、体等。l视觉通道是数据属性的值到标记的视觉呈现参数的映射,用于展现数据属性的定量信息;l视觉通道用于控制标记的视觉特征,通常可用的视觉通道包括标记的位置、大小、形状、方向、色调、饱和度、亮度等。数据采集&数据预处理数据挖掘数据可视化大数据类型重点难点标记和视觉通道空间、标记、尺寸、颜色、亮度、饱和度、位置色彩、透明度、方向、形状、纹理、动画、配图图表定义描述图表展示数据轨迹图一种以x坐标显示自变量,坐标显示因变量的标准的单变量数据呈现方法。可直观呈现数据分布、离群值、对均值的偏移等信息。抖动图将数据点布局于一维轴时,可能产生部分数据重合。抖动图将数据点沿垂直横轴方向随机移动一小段距离。1991

    18、年核密度估计(KDE)是一种估计空间数据点密度的图。它将离散的数据点重建为连续的图,其原理是将平滑的单峰核函数与每个离散数据点的值进行卷积,获得光滑的反映数据点密度的连续分布。数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻单变量数据图表定义描述图表展示盒须图一种用于显示一组数据分散情况资料的统计图,由一个盒子和两边各一条线组成,提供了一种用5个点对数据集做简单总结的方式。盒子中间和上下边缘分别对应数据的中位线、上四分位数和下四分位数。上下两条线表示数据中除去异常值外的最大最小值。饼图用圆形及圆内扇形面积表示数值大小的图形,用于表示总体中各组成部分所占的比例。柱状图由一系列高

    19、度不等的纵向长方形条纹组成,表示不同条件下数据的分布情况的统计报告图。长方形条纹的长度表示相应的变量的数量、价值等,常用于较小的数据集分析。条状图亦可横向排列,也可以出现负值。有时将统一变量的几个不同含义数据堆叠一起,形成堆叠图。直方图对数据集的某个数据属性的频率统计图。单变量数据的取值范围映射到X轴,并分割成多个子区间,每个子区间用一个高度正比于落在该区间的数据点的个数的长方块表示。直方图可以直观地呈现数据的分布、离群值和数据分布模态。主要用于描述数据的分布状况,常见的分布有正常型、折齿型、缓坡型、孤岛型、双峰型和峭壁型。数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻单变

    20、量数据图表定义描述图表展示散点图一种以笛卡尔坐标系中点的形式表示二维数据的方法。每个点的横、纵坐标代表该数据在该坐标轴所表示维度上的属性值大小。散点图在一定程度上表达了两个变量之间的关系。散点图的不足是难以从图上获得每个数据点的信息,但结合图标等手段可以在散点图上展示部分信息。对数图与半对数图描述两个变量之间的关系最常用的方式是将一个变量随另一个变量变化的过程绘制在直角坐标系中。为了更加方便地观察以指数速度变化的变量之间的关系,不再描述原始数据,而是描述其对数值。对数图能有效呈现数据的大幅度变化,将乘法运算转化成了加法运算,揭示数据中的指数分布。两个坐标轴均使用对数值的图称为对数图,只有一个坐

    21、标轴使用对数值的图称为半对数图。数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻双变量数据图表定义描述图表展示等值线图利用相等数值的数据点的连线来表示数据的连续分布和变化规律。等值线图中的曲线是空间中具有相同数值的数据点在平面上的投影。典型的等值线图有平面地图上的地形等高线、等温线、等湿线。热力图热力图使用颜色来表达位置相关的二维数值数据大小。这些数据常以矩阵或方格形式整齐排列,或在地图上按一定的位置关系排列,由每个数据点的颜色反映数值的大小。数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻多变量数据数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表

    22、视觉隐喻时序数据走势图是一种紧凑简洁的时序数据趋势表达方式,常以折线图为基础,大小与文本相仿,往往直接嵌入文本或表格中。由于尺寸限制,走势图无法表达太多的细节信息。如图6-11为近五年的黄金价格走势图。图6-11 时序走势图数据可视化基础数据可视化流程数据处理和变换视觉编码统计图表视觉隐喻视觉隐喻 时间隐喻和空间隐喻是可视化隐喻中最常见的两类方式。选取合适的源域和喻体表示时间和空间概念,能创造最佳的可视和交互效果。如图6-12所示为隐喻:向日葵的实例。图6-12 隐喻:向日葵36.3 可视化评估可视化评估评估分类评估方法分类描述实地调查在实地调查中,调查者在用户实际工作的环境中观察可视化方法的

    23、使用方式和效果。调查者尽可能减少自己对用户的影响,观察用户在正常状态下的表现。实地调查报告一般围绕评估目的有详细的记录和描述。实地调查最接近实际情况,不过其结果并不一定精确,而且通用性不一定好。实地实验实地实验同样在用户实际工作环境中进行。调查者为了得到更确定的信息可以牺牲某些自然状态。实验室实验在实验室实验中,评估者在实验室环境下设计并实施实验,包括实验的时间、地点、实验内容、用户任务等所有方面。用户一般在评估者的指导下按照要求在一定时间内完成实验操作。这种方式的好处是针对性强,结果准确度高,用时较短,而且评估者可以要求用户执行某些实地条件下无法完成的任务。不过,实验的可靠性减弱,实验结果在

    24、自然工作环境下是否适用需要进一步论证。实验模拟在实验模拟中评估者试图通过模拟方法进行实验并获得尽可能确定的结果。实验模拟一般针对危险和难以实施的实验,对计算机应用程序也可以在完成开发之前用模拟的方式评估设计,减少开发的风险和成本。可视化评估方法分类分类描述判断研究判断研究用于衡量用户对可视化方法中的视觉、声音等感知元素的反应。在判断研究中,应尽量保持环境的中立性,减少环境对结果的影响。测量的目的是判断可视化方法中各种感知刺激的有效性,而不是用户自身,因此,设计实验时应减少用户个体行为对结果的影响。可视化中对感知的研究经常采用这一方法。样本调查在样本调查中评估者需要在特点人群中找到一个变量的分布

    25、或一组变量之间的联系。同时,用户的抽样非常重要,也很难控制。在分析调查结果时,需要考虑对样本分布的矫正。理论理论是对实验结果的总结和分析。理论并不产生新的实验结果,其实际性较低而通用性很强。理论的优点在于用精炼的逻辑和论证解释实验结果,并可以应用在其他类似问题上。在可视化领域理论研究仍然缺乏。计算模拟在社会自然科学中一些需要人参与的实验现已可用计算机模拟,在可视化评估中也可以通过对数据、可视化过程和用户等元素的模拟来进行评估。也可以模拟用户在看到社交网络的结构和信息传播后对信息的反应。整个评估过程没有人的参与,完全由计算机完成。可视化评估评估分类评估方法可视化评估方法分类可视化评估评估分类评估

    26、方法定量评估定量评估的基本步骤如下所示:设定虚假设:“用户使用可视化方法用户使用可视化方法A和使用可视化方法和使用可视化方法B在完成任务在完成任务T的时间和的时间和准确度方面没有统计意义上的区别准确度方面没有统计意义上的区别”。在评估实验中记录一组用户分别用方法A和方法B完成T所用的时间和准确度。用统计工具可以判断虚假设是否成立以及结论的可信度。在检验虚假设时,可能犯两种错误可能犯两种错误。一种是当虚假设在现实中成立时分析结果判断为不成立。这种错误也被称为第一类错误或假阴性错误。第二种错误是当虚假设在现实中不成立时分析结果判断为成立。这种错误也被称为第二类错误或假阳性错误。可视化评估评估分类评

    27、估方法定性评估图6-13 定性评估方法 观察时,评估者尽量让自己变得透明,让用户在自然状态下实验可视化程序,完成任务。在评估时,可以一边观察,一边记录笔记。采访比观察更具主动性,更能有的放矢。采访中询问的问题很重要,而积极地倾听用户诉说也同样重要。采访者需要确定自己理解了用户的描述和解释。如果任何地方有疑问,需要让用户解释清楚,但要避免让用户感觉受到质疑。定性评估方法的核心是采集定性评估方法的核心是采集数据的方法。数据的方法。定性评估数据包括笔记、录像、录音、计算机记录、日志等。采集这些数据的方法主要分为两大类:观察观察和采访采访。4附加:学生作品赏析全世界新冠疫情下我国粮食安全否?1。开发说明书撰写2。可视分析直播-学生直播作品解析学生作品展示学生作品展示学生作品展示学情分析如图,为学生制作的学习情况及效果的可视化分析报告。学习情况与效果的可视化分析报告大数据行业招聘分析70007000条招聘数据,分析行业、薪酬、学历、城市之间的关系。条招聘数据,分析行业、薪酬、学历、城市之间的关系。结果分析结果分析通过此图可以看出学历要求越高的大数据相关岗位,其薪资均值越高,同时也越稳定,薪酬上下差值不大;而学历要求越低,薪酬的浮动则越大。由此可以得出结论:学历与薪资稳定性之间存在一定关联。


    注意事项

    本文(第6章 数据可视化.pptx)为本站会员(无敌的果实)主动上传,其收益全归该用户,163文库仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!




    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库