书签 分享 收藏 举报 版权申诉 / 58
上传文档赚钱

类型《大数据导论》课件第5章 大数据可视化.pptx

  • 上传人(卖家):momomo
  • 文档编号:7651694
  • 上传时间:2024-05-24
  • 格式:PPTX
  • 页数:58
  • 大小:8.37MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《《大数据导论》课件第5章 大数据可视化.pptx》由用户(momomo)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    大数据导论 大数据导论课件第5章 大数据可视化 数据 导论 课件 可视化
    资源描述:

    1、第5 5章 大数据可视化提纲5.1 5.1 大数据可视化技术概述大数据可视化技术概述5.2 5.2 大数据可视化技术基础大数据可视化技术基础5.3 5.3 大数据可视化应用大数据可视化应用5.45.4大数据可视化软件和工具大数据可视化软件和工具 本章首先从数据可视化简史和功能角度出发,对大数据可视化技术的基本概念、可视化流程、可视化编码和可视化设计进行了简要介绍。然后介绍了一些大数据可视化的应用领域,包括文本可视化、社交网络可视化、日志数据可视化、地理信息可视化和数据可视化交互等应用。最后介绍了大数据可视化的一些软件和工具,例如VTK、3D Slicer、Python和R语言等。第5章内容概述

    2、5.1 大数据可视化技术概述5.1.1 数据可视化简史1)16世纪之前:图表萌芽2)17世纪:物理测量数据可视化3)18世纪:图形符号4)19世纪:数据图形5)1900-1949年:现代启蒙6)1950-1974年:多维信息的可视编码7)1975-1987年:多维统计图形8)1987-2004年:交互可视化9)2005年至今:可视分析学5.1.2 数据可视化的功能 从宏观的角度看,可视化有3个功能:(1)信息记录:将大规模的数据记录下来,最有效的方式就是将信息成像或采用草图记载。不仅如此,可视化呈现还能激发人的洞察力,帮助验证科学假设。(2)信息推理与分析:数据分析的任务通常包括定位、识别、区

    3、分、分类、聚类、分布、排列、比较、内外连接比较、关联和关系等。(3)信息传播与协同:将复杂信息传播与发布给公众的最有效途径就是将数据进行可视化,达到信息共享、信息协作、信息修正和信息过滤等目的。5.1.2 数据可视化的功能(1)信息记录 20世纪的三大发现之一DNA分子结构就起源于对DNA结构的X射线衍射照片的分析。如下图5-1所示。图中左边是DNA的B形51号X射线衍射照片;右边是DNA的X射线衍射照片与双螺旋结构的晶体学解释。5.1.2 数据可视化的功能(2)信息推理与分析将信息以可视化的方式呈献给用户,使得用户可以从可视化结果分析和推理出有效的信息,提高认识信息的效率。数据可视化在对上下

    4、文的理解和数据推理有独到的作用。19世纪欧洲霍乱大流行的时候,英国医生John Snow绘制了一张伦敦的街区地图如图所示,该图标记了每个水井的位置和霍乱致死的病例地点。该图清晰显示有73个病例集中分布在布拉德街的水井附近,这就是著名的伦敦鬼图。在拆除布拉德街水井摇把之后不久,霍乱就平息了。5.1.2 数据可视化的功能(3)信息传播与协同视觉感知是人类最主要的信息通道,人靠视觉获取了70%以上的信息。俗话说的“一图胜千言”或“百闻不如一见”就是这个意思。将复杂信息传播与发布给公众的最有效途径就是将数据进行可视化,达到信息共享、信息协作、信息修正和信息过滤等目的。以发生在1986年美国“挑战者”号

    5、航天飞机失事为例说明数据可视化在信息传播中的重要性。“挑战者”号航天飞机事故的直接原因是两个密封圈的故障,在航天飞机配件生产商提交给NASA的图表上,工程师只列出了密封圈爆裂的相关数据表格,没有足够的说服力。如果采用清晰的可视化图表,或许事故就不会发生。5.1.3 大数据可视化简介1.数据可视化与大数据可视化 数据可视化是关于数据的视觉表现形式的科学技术研究。其中,这种数据的视觉表现形式被定义为一种以某种概要形式抽提出来的信息,包括相应信息单位的各种属性和变量。大数据可视化可以理解为数据量更加庞大,结构更加复杂的数据可视化。大数据可视化侧重于发现数据中蕴含的规律特征,表现形式也多种多样。5.1

    6、.3 大数据可视化简介2.大数据可视化的表达1)数据的可视化 数据的可视化的核心的是对原始数据采用什么样的可视化元素来表达。下图呈现的是中国电信区域人群检测系统。5.1.3 5.1.3 大数据可视化简介(2)指标的可视化 在大数据可视化过程中,采用可视化元素的方式将指标可视化,会将可视化的效果增彩很多。下图是对QQ群大数据资料进行可视化分析。图中显示的是将近100G的QQ群数据,其中企鹅图标的节点代表QQ,群图标的节点代表群。每条线代表一个关系,一个QQ可以加入N个群,一个群也可以有N个QQ加入。线的颜色分别代表:黄色为群主;绿色为群管理员;蓝色为群成员。群主和管理员的关系线也比普通的群成员长

    7、一些,这是为了突出群内的重要成员的关系。5.1.3 大数据可视化简介(3)数据关系的可视化 数据关系往往也是可视化数据核心表达的主题宗旨。下图是对自然科学领域1431种杂志的文章之间的217287个相互引用关系网络的聚类可视化结果。所有1431个结点被分割聚合为54个模块,每个模块结点是一个聚类,而模块的大小则对应聚类中原来结点的数目。5.1.3 5.1.3 大数据可视化简介(4 4)背景数据的可视化)背景数据的可视化 很多很多时候光有原始数据是不够的,因为数据没有价值,信息才时候光有原始数据是不够的,因为数据没有价值,信息才有价值。设计师马特有价值。设计师马特罗宾森和汤姆罗宾森和汤姆维格勒沃

    8、斯用不同的圆珠笔和字体维格勒沃斯用不同的圆珠笔和字体写写“Sample”Sample”这个单词。因为不同字体使用墨水量不同,所以每支笔所剩这个单词。因为不同字体使用墨水量不同,所以每支笔所剩的墨水也不同。于是就产生了这幅很有趣的的墨水也不同。于是就产生了这幅很有趣的图。图。在这幅图中不再需要标注在这幅图中不再需要标注坐标系,因为不同的笔及其墨水含量已经包含了这个信息。坐标系,因为不同的笔及其墨水含量已经包含了这个信息。5.1.3 大数据可视化简介(5)转换成便于接受的形式 大数据可视化完成基本功能后可能还需要优化。优化包括按照人的接受模式、习惯和能力,甚至还需要考虑显示设备的能力,然后进行综合

    9、改进,这样才能更好地达到被接受的效果。例如做一个关于“销售计划”的可视化产品,原始数据是销售额列表,采用柱状图来表达;在图表中增加一条销售计划线来表示销售计划数据;最后在销售计划线上增加勾和叉的符号,来表示完成和未完成计划,如此看图表的人更容易接受。5.1.3 大数据可视化简介(6)强化 大数据就必须要讲一讲强化。因为是大数据,所以很多时候数据、信息、符号对于接受者而言是过载的,可能就分辨不出来了,这时我们就需要在原来的可视化结果基础上再进行优化。例如在上述的“销售计划”中,假设这个图表重点是针对没有完成计划的销售员的,那么我们可以强化叉是红色的。如果柱状图中的柱是黑色,勾也是黑色,那么红色的

    10、叉更为显眼。(7)集中展示 对这个“销售计划”可视化产品来说,还有很大的完善空间,例如为了让管理者更好地掌握情况,我们可以增加一张没有完成计划的销售人员数据表,这样管理者在掌控全局的基础上,还可以很容易抓住所有焦点,进行逐一处理。5.1.3 5.1.3 大数据可视化简介(8)修饰 修饰是为了让可视化的细节更为精准、甚至优美,比较典型的工作包括设置标题,表明数据来源,对过长的柱子进行缩略处理,进行表格线的颜色设置,各种字体、图素粗细、颜色设置等。(9)完美风格化 所谓风格化就是标准化基础上的特色化,最典型的例如增加企业、个人的LOGO,让人们知道这个可视化产品属于哪个企业、哪个人。而要做到真正完

    11、美的风格化,还需要很多不同的操作。例如布局、颜色、图标、标注、线型,甚至动画的时间、过渡等方面,从而让人们更直观地理解和接受。5.2 大数据可视化技术基础 5.2.1 数据可视化流程 数据可视化流程一般以数据流向为主线,主要分为数据采集、数据处理、可视化映射和用户感知这四大模块。整个数据可视化流程可以看成数据流经过一系列处理模块并得到转换的过程。用户可以通过可视化交互与其他模块进行互动,向前面模块反馈而提高数据可视化的效果。具体的数据可视化流程有很多种,下图是一个数据可视化流程的概念模型。5.2.1 5.2.1 数据可视化流程 1.数据采集2.数据处理和变换3.可视化映射4.用户感知 数据可视

    12、化流程中的各个模块之间的联系并不是依照顺序的线性联系,而是任意两个模块之间都存在联系。例如,可视化交互是数据可视化过程中,用户控制修改数据采集、数据处理和变换、可视化映射各模块而产生新的可视化结果,并反馈给用户的过程。5.2.2 5.2.2 数据可视化编码 可视化编码(visual encoding)是数据可视化的核心内容。指将数据信息映射成可视化元素,映射结果通常具有表达直观、易于理解和记忆等特性。可视化元素由可视化空间、标记和视觉通道等三方面组成。1.标记和视觉通道 标记通常是一些几何图形元素,如点、线、面、体等,如图所示。5.2.2 数据可视化编码 视觉通道用于控制标记的视觉特征,通常可

    13、用的视觉通道包括标记的位置、大小、形状、颜色、方向、色调、饱和度、亮度等,如图所示。标记的选择通常基于人们对于事物理解的直觉。然而,不同的视觉通道在表达信息的作用和能力可能具有截然不同的特性。5.2.2 数据可视化编码 2.可视化编码元素的优先级 数据可视化的有效性取决于用户的感知。尽管不同用户的感知能力会有一定的差别,仍然可以假设大多数人对可视化元素有规律可循。Cleveland等研究人员发现,当数据映射为不同的可视化元素时,人对不同可视化元素的感知准确性是不同的。如图给出了可视化元素在数值型数据可视化中编码优先级。5.2.2 数据可视化编码 数据可视化的对象不仅包含数值型数据,也包括非数值

    14、型数据。如图优先级自上而下的基本数据类型适用的可视化编码方式。5.2.2 数据可视化编码 3.统计图表的可视化 柱状图 直方图 饼图 散点图 等值线图 热力图 走势图 颜色映射图 5.2.2 数据可视化编码 根据不同的数据可视化分析需求可以归纳出采用的基本统计图表可视化方法。如图所示。5.2.3 数据可视化设计 1.数据可视化设计标准在进行数据可视化设计时有适合大多数可视化设计的标准可以帮助设计者实现不同风格可视化设计以及寻求最佳设计这些目标。下面列出常见的一部分标准。1)强表达力2)强有效性有效性代表用户对可视化显示信息的理解效率。3)简洁性4)易用性5)美感数据可视化设计的侧重点虽然不是视

    15、觉美感,但视觉上的美感可以让用户更易于理解可视化表达的内容,更专注于对数据的考察和度量,从而提高数据可视化的效率。5.2.3 数据可视化设计 2.数据可视化设计的步骤(1)确定数据到图形元素和视觉通道的映射;(2)视图的选择与用户交互控制的设计;(3)数据的筛选即确定在有限的可视化视图空间中选择适量的信息进行编码,以避免在数据量很大的情况下产生视觉混乱。5.2.3 数据可视化设计 3.数据可视化设计的直观性 数据到可视化元素的映射需要充分利用人们已有的先验知识,从而降低人们对信息的感知和认识所需要的时间。如图所示的数据可视化设计实际上是一个散点图的可视化技术应用。5.2.3 数据可视化设计 4

    16、.网格及其标注的使用 设计者可通过在水平和竖直方向加均匀网格线提高用户对可视化中点的数值进行比较时的精度。下图展示了网格及其标注是否被合理使用的例子。从左至右分别是网格的过多使用、合理使用和过少使用。可以看出合理使用网格及其标注才能让数据所映射的点被用户很好地理解。5.3 大数据可视化应用 本节主要介绍跨媒体数据中的文本数据、社交网络数据、日志数据和地理信息数据的大数据可视化应用以及大数据可视化的交互应用。5.3.1 5.3.1 文本可视化文本可视化 文本是人类信息交流的主要传播媒体之一,文本信息在人们日常生活中几乎无处不在,如新闻、邮件、微博、小说和书籍等。文本可视化基本流程包括三个主要步骤

    17、:即文本处理、可视化映射和交互操作。整个过程应该围绕用户分析的需求设计。下面根据文本的模式或结构、文档的主题或主题分布、文本中的关联等特征方面阐述一些文本数据可视化的经典案例和应用。5.3.1 文本可视化1.标签云 标签云(tag cloud)又称文本云(text cloud)或单词云,是最直观、最常见的对文本关键字进行可视化的方法。标签云一般使用字体的大小与颜色对关键字的重要性进行编码。如图(来源于http:/)是通过改进标签云的布局对泰戈尔的“The Furthest Distance In The World”的内容进行可视化的结果。5.3.1 文本可视化 2.小说视图小说视图(Nove

    18、l Views)方法是使用简单的图形将小说中的主要人物在小 说 中 的 分 布 情 况 进 行 可 视 化。下 图(来 源 于http:/ 文本可视化 3.主题山地主题山地(theme scapes)方法使用了抽象的三维山地景观视图隐喻文档集合中各个文档主题的分布,其中高度和颜色用来编码主题相似的文档的密度。如下图所示。4.主题河流主题河流(theme river)是用于时序型文本数据可视化的经典方法。时序型文本通常是指具有内在顺序的文档集合,例如一段时间内的新闻报道、一套丛书等。由于时间轴是时序型文本的重要属性,需要重点考虑时间轴的表示及可视化。如图所示。5.3.1 文本可视化 5.3.2

    19、社交网络可视化 社交网络服务是指基于互联网的人与人之间相互联系、信息沟通和互动娱乐的运作平台。Facebook、Twitter、微信、新浪微博、人人网、豆瓣等都是当前普及的社交网站。基于这些社交网站提供的服务建立起来的虚拟化的网络就是社交网络。社交网络是一个网络型结构,由结点和结点之间连接组成。这些结点通常是指个人或者组织,结点之间的连接关系有朋友关系、亲属关系、关注或转发关系、支持或反对关系,拥有共同的兴趣爱好等。社交网络可视化是人们了解社交网络的结构、动态、语义等方面的重要工具。不同用户期待获取不同的信息,所以可视化结果需要呈现出社交网络不同方面的内容。下面根据可视化所需揭示的内容,阐述一

    20、些社交网络可视化的经典案例和应用。1.结构型结构型可视化着重于展示社交网络的结构,即体现社交网络中参与者和他们之间的拓扑关系结构。如图显示了运用Nexus软件对Facebook中某用户的社交网络可视化结果,可以看出该用户若干个不同的朋友社交圈。5.3.2 社交网络可视化 2.时序型社交网络中用户的行为具有时间信息,将时间信息作为属性融入社交网络的可视化可以反映社交网络的动态变化情况。如图显示了本拉登的死亡消息在Twitter上的传播折线图。5.3.2 社交网络可视化 3.基于位置信息的可视化基于微博参与者位置信息的可视化对分析不同地区差异、交通梳理等有重要价值。如图是将Twitter数据与地理

    21、位置结合的可视化结果。5.3.2 社交网络可视化 5.3.3 日志数据可视化 日志数据可以理解为一种记录所观察对象的行为信息的数据。日志数据的来源多种多样,例如:电子商务网站的海量交易记录、银行系统的财务记录、集群网络产生的大量系统日志数据、GPS和移动通信设备记录的记录等。下面根据可视化数据来源的差异,阐述一些日志数据可视化的经典案例和应用。1.商业交易数据可视化淘宝、京东、亚马逊等电子商务交易平台每时每刻产生用户购买商品的交易信息。这些信息包括用户登记的姓名、年龄、职业、邮寄地址、累计花销、成交商品、成交金额、成交时间等属性。这些个人信息与交易记录具有巨大的数据分析价值。对商业交易数据进行

    22、可视化可以直观形象地展示数据,提高数据分析和数据挖掘效率,从而带来可观的经济和社会效益。5.3.3 日志数据可视化 2.用户点击流可视化用户在网页上的点击流记录了用户在网页上的每一次点击动作,用户点击流可用于分析用户在线行为模式,高频点击流序列和特定行为模式的一类用户的统计特征。下图是用户点击流可视化示例。5.3.4 地理信息可视化 地理信息包含地球表面、地上、地下的所有与地理有关的信息。由于人类活动的主要空间是地球,因此很多工程实践、社会活动和科学研究所产生的数据都含有地理信息。对这些地理数据进行采集、描述、储存、运算、管理、分析和可视化的系统称为地理信息系统(GIS)。地理信息数据的可视化

    23、是GIS的核心功能,在日常生活中应用十分广泛,例如高德地图、凯立德地图、GPS导航、用户手机信息跟踪、汽车轨迹查询等。下面根据地理信息可视化数据映射形式的差异,阐述一些地理信息可视化的经典案例和应用。5.3.4 地理信息可视化 1.点地图 可视化点数据的基本手段是在地图的相应位置摆放标记或改变该点的颜色,形成的结果称为点地图。点地图不仅可以表现数据的位置,也可以根据数据的某种变量调整可视化元素的大小,例如圆圈和方块的大小或者矩形的高度。2.网络地图 网络地图是一种以地图为定义域的网络结构,网络中的线段表达数据中的链接关系与特征。3.等值区间地图等值区间地图是最常用的区域地图方法。该方法假定地图

    24、上每个区域内的数据分布均匀,将区域内相应数据的统计值直接映射为该区域的颜色。每个区域的边界是封闭的曲线。等值区间地图可视化的重点是数据的归一化处理和颜色映射的方法。5.3.5 数据可视化交互 大数据可视化帮助用户洞悉数据内涵的主要方式有两种:显示和交互。这两种方式互相补充并处于一个反馈的循环中。可视化显示是指数据经过处理和可视化映射转换成可视化元素并且呈现。可视化交互是指将用户探索数据的意图传达到可视化系统中以改变可视化显示。数据可视化用户界面设计中,可取多种可视化交互方式,但其核心思路是:先看全局,放大并过滤信息,继而按要求提供细节。在实际设计中,这个模型是设计的起点,需要根据数据和任务进行

    25、补充和拓展。下面根据可视化交互方法的差异,阐述一些数据可视化交互的经典案例和应用。5.3.5 数据可视化交互 1.探索可视化交互中的探索操作让用户主动寻找并调动可视化程序去寻找感兴趣的数据。探索过程中通常需要在可视化中加入新数据或去除不相关的数据。如图是一个用户可变换视点从不同角度观察目标的三维数据的探索过程。5.3.5 数据可视化交互 2.简化或具体 面对超大规模的数据可视化需要先简化数据再进行显示。简化或具体程度可以分成不同的等级。常用的得方法有下面三种。第一种,通过用户交互改变数据的简化程度并且在不同的层次上显示是可视化交互中广泛应用的方法;第二种也是最直观的调整数据简化程度的方法是可视

    26、化视图的放大或缩小操作;第三种是通过改变数据结构或者调整绘制方法来实现简化操作。如图是同一个三维数据在不同简化级别上的结果。5.3.5 数据可视化交互 3.数据过滤数据过滤可以选取满足某些性质和条件的数据,而滤除其他数据。在过滤交互过程中,除了现实的对象在改变外,可视化的其他元素(例如视角和颜色)均保持不变。如图是两个过滤操作在平行坐标上的效果。5.4 大数据可视化软件和工具 本节首先介绍大数据可视化软件的分类,然后具体介绍科学可视化、可视化分析和信息可视化领域的一些比较典型的可视化软件系统。通过有限的例子让用户对可视化软件系统的设计与性质有一个大致的认识,帮助用户按照需求选取合适的软件。5.

    27、4.1 5.4.1 大数据可视化软件分类大数据可视化软件分类(1)适用用户大数据可视化软件从结构上来一般可以分为开发软件和应用软件。(2)适用领域大数据可视化软件一般可以分为科学可视化、可视分析和信息可视化三个领域。(3)发布模式大数据可视化软件可以分为开源软件和商务软件两种。5.4.2 科学可视化软件和工具 1.VTK VTK(Visualization Toolkit)是一个开源、免费、跨平台的软件系统,主要用于三维计算机图形学、图像处理和数据可视化。它屏蔽了数据可视化开发过程中常用的算法,以C+类库和众多的翻译接口层(Java、Python类)的形式提供数据可视化开发功能。它以用户使用的

    28、方便性和灵活性为主要原则,具有如下的特点:1)具有强大的三维图形和数据可视化。2)VTK的体系结构使其具有很好的流处理和高速缓存能力,适合于大数据可视化场合。3)VTK能够更好的支持基于网络的工具例如Java。4)VTK既可以工作于Windows 又可以工作于Unix。5)VTK具有更丰富的数据类型。6)VTK中定义了许多宏。7)VTK支持并行处理超大规模数据。5.4.2 科学可视化软件和工具 2.3D Slicer3D Slicer是一个免费的、开源的、跨平台的医学图像分析和可视化软件,广泛应用于科学研究和医学教育领域。3D Slicer支持Windows、Linux和Mac OSX等操作系

    29、统,支持医学图像分割、数据配准等多项功能,具有如下的特点:1)支持三维体数据、几何网格数据的交互式可视化。2)支持手动编辑、数据配准与融合以及图像的自动分割。3)支持DICOM图像和其他格式图像的读写。4)支持功能磁共振成像和弥散张量成像的分析和可视化,提供图像引导放射治疗分析和图像引导手术的功能。5.4.2 科学可视化软件和工具 3.Google EarthGoogle Earth是一款Google公司开发的虚拟地球仪软件。最新版本Google Earth 6针对桌面计算机系统推出了三种针对不同目标用户的版本:Google Earth、Google Earth专业版、Google Earth

    30、企业版。Google Earth向用户提供了查看卫星图像、三维树木、地形、三维建筑、街景视图、行星等不同数据的视图。支持计算机、移动终端、浏览器等浏览应用。5.4.3 可视化分析软件和工具 1.Python Python是一款通用的编程语言,它原本并不是针对图形设计的,但还是被广泛地应用于数据处理分析和Web应用。因此,如果你已经熟悉了这门语言,通过它来可视化探索数据就是合情合理的。尽管Python在可视化方面的支持并不是很全面,但你还是可以从学习Matplotlib库和NumPy库入手,这是个进行大数据可视化绘制和分析方面很好的起点。下面举一个简单的Python数据可视化的例子:如果有两个变

    31、量,并且想标记出它们之间的相关关系,散点图是一种很好的解决方案。这种类型的图形非常有用,可以作为更高级的多维大数据可视化的基础。5.4.3 可视化分析软件和工具 启动Python的集成开发环境Anaconda的Spyder中运行下面不相关数据和正强相关数据图表的程序。import matplotlib.pyplot as pltimport numpy as np#generate x valuesx=np.random.randn(1000)#random measurements,no correlationy1=np.random.randn(len(x)#strong correlat

    32、iony2=1.2+np.exp(x)ax1=plt.subplot(121)plt.scatter(x,y1,color=indigo,alpha=0.3,edgecolors=white,label=no correl)plt.xlabel(no correlation)plt.grid(True)plt.legend()ax2=plt.subplot(122,sharey=ax1,sharex=ax1)plt.scatter(x,y2,color=green,alpha=0.3,edgecolors=grey,label=correl)plt.xlabel(strong correlat

    33、ion)plt.grid(True)plt.legend()plt.show()5.4.3 可视化分析软件和工具 上面的Python生成的不相关数据和正强相关数据散点图:5.4.3 可视化分析软件和工具 2.Palantir2004年成立的Palantir是美国硅谷一家大数据科技公司。Palantir名字的灵感来自当时的电影指环王,在电影中Palantir是一个可以穿越时空、看到一切的水晶球,它可以帮助剧中人物和其它水晶球建立联系,从而可以看到附近的图像。Palantir作为大数据可视分析领域的标杆性软件,为政府机构和经融机构提供高级数据分析服务。它的主要功能是链接网络各类数据源,提供交互式的

    34、可视化界面,辅助用户发现数据间的关键联系,帮助用户寻找隐藏的规律或证据,并预测将来可能发生的事件。5.4.4 信息可视化软件和工具 1.Tableau就数据可视化而言,Tableau可以算是业内翘楚,它起源于美国斯坦福大学的科研成果,为1万多家企业级客户提供服务,包括Facebook、eBay、Manpower、Pandora及其他著名公司。Tableau与Mapbox的集成能够生成绚丽的地图背景,并添加地图层和上下文,生成与用户数据相配的地图,如图所示。5.4.4 信息可视化软件和工具 2.R语言R语言是一个在统计领域有着广泛用户群的统计计算工具。它最初的使用者主要是统计分析师,但后来用户群

    35、扩充了不少。它的绘图函数能用短短几行代码便将图形画好,通常一行就够了。近些年来,R语言的核心开发团队完善了其核心产品,将其推动进入一个令人激动的全新方向。无数的统计分析和数据挖掘研发人员利用R语言开发统计软件并实现数据分析。对数据挖掘研发人员的软件使用调查表明,R语言近年普及率大幅增长。R语言对于创建和开发生动、有趣图表的支撑能力非常丰富。基础R语言已经包含支撑协同图(Coplot)、拼接图(Mosaic Plot)和双标图(Biplot)等多类图形的功能。R语言更能帮助用户创建功能强大的交互性图表和进行大数据可视化。5.4.4 信息可视化软件和工具 3.D3.jsD3.js是一套面向Web的

    36、二维数据变换和可视化方法。它以浏览器端应用为目标,具有良好的可移植性。D3.js处理的是基于数据文档的JavaScript库,利用诸如HTML、Scalable Vector Graphic以及Cascading Style Sheets等编程语言让数据变得更生动。通过对网络标准的强调,D3赋予用户当前浏览器的完整能力,而无需与专用架构进行捆绑;并将强有力的可视化组件和数据驱动手段与文档对象模型(DOM,Document Object Model)操作实现融合。D3.js数据可视化工具的设计很大程度上受到REST Web APIs出现的影响。根据以往经验,创建一个数据可视化需要以下过程:1)从多个数据源汇总全部数据;2)计算数据;3)生成一个标准化的/统一的数据表格;4)对数据表格创建可视化。习题 1、什么是数据可视化?数据可视化的功能有哪些?2、什么大数据可视化?大数据可视化的表达主要有哪些方面?3、数据可视化的基本流程和步骤是什么?4、数据可视化设计的标准和主要步骤分别是什么?5、大数据可视化软件与工具的划分标准是什么?6、请上网收集资料,列举说明你生活中涉及到大数据可视化的应用案例。谢谢谢谢!

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:《大数据导论》课件第5章 大数据可视化.pptx
    链接地址:https://www.163wenku.com/p-7651694.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库