大数据基本概念和研究热点(102p)102课件.ppt

上传人（卖家）：晟晟文业

文档编号：5125265

上传时间：2023-02-13

格式：PPT

页数：102

大小：553.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

29 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《大数据基本概念和研究热点(102p)102课件.ppt》由用户（晟晟文业）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: 数据基本概念研究热点 102 课件

资源描述：: 1、Big Data1大数据时代在科学研究(天文学、生物学、高能物理等)计算机仿真互联网应用电子商务等领域数据量呈现快速增长的趋势2大数据时代在科学研究方面:大型强子对撞机每年积累的新数据量为15PB 左右在电子商务领域:沃尔玛公司每天通过 6000 多个商店,向全球客户销售超过 2.67 亿件商品为了对这些数据进行分析,HP 公司为沃尔玛公司建造了大型数据仓库系统,数据规模达到 4PB,并且仍在不断扩大3大数据时代大规模数据主要来源1:传感器数据分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据.即便对这些数据进行过滤,仅保留部分有效数据,长时间累积的数据量也是非常惊人的4大数据时代
2、大规模数据主要来源2:网站点击流数据为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的服务5大数据时代大规模数据主要来源3:移动设备数据通过移动电子设备包括移动电话和PDA、导航设备等,我们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统6大数据时代大规模数据主要来源4:射频 ID 数据RFID 可以嵌入到产品中,实现物体的跟踪.一旦 RFID 得到广泛的应用,将是大量数据的主要来源之一7数据分析的新趋势:超越常规报
3、表的深度分析需求的增长为了从数据中发现知识并加以利用,指导人们的决策,必须对数据进行深入的分析,而不是仅仅生成简单的报表.这些复杂的分析必须依赖于复杂的分析模型,很难用SQL 来进行表达,统称为深度分析(deep analysis).8人们不仅需要通过数据了解现在发生了什么,更需要利用数据对将要发生什么进行预测,以便在行动上做出一些主动的准备比如,通过预测客户的流失预先采取行动,对客户进行挽留.910这里,典型的OLAP 数据分析操作(对数据进行聚集、汇总、切片和旋转等)已经不够用,还需要路径分析、时间序列分析、图分析、What-if 分析以及由于硬件/软件限制而未曾尝试过的复杂统计分析模型1
4、1时间序列分析商业组织积累了大量的交易历史信息,企业的各级管理人员希望从这些数据中分析出一些模式,以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在涌现出来的机会.12时间序列分析比如在金融服务行业,分析人员可以开发针对性的分析软件,对时间序列数据进行分析,寻找有利可图的交易模式(profitable trading pattern),经过进一步验证之后,操作人员可以使用这些交易模式进行实际的交易,获得利润13大规模图分析和网络分析社会网络虚拟环境本质上是对实体连接性的描述.在社会网络中,每个独立的实体表示为图中的一个节点,实体之间的联系表示为一条边.14大规模图分析和网络分析通过社会网
5、络分析,可以从中发现一些有用的知识比如发现某种类型的实体(有一种类型的实体把各个小组连接在一起,称为网络中的关键实体).这些信息可以用于产品直销、组织和个体行为分析、潜在安全威胁分析等领域.15一种处理大数据的方法是使用采样技术通过采样,可以把数据规模变小,以便利用现有的技术手段(关系数据库系统)进行数据管理和分析.然而在某些应用领域,采样将导致信息的丢失,比如DNA 分析等.在明细数据上进行分析,意味着需要分析的数据量将急剧膨胀和增长.16数据分析的趋势和挑战1)数据量的膨胀;2)数据深度分析需求的增长3)数据类型多样化包括各种非结构化、半结构化数据,对这些类型多样的数据进行管理和分析也是数
6、据处理技术所面临的挑战.1718以MapReduce 为代表的为代表的非关系数据管理技术的兴起非关系数据管理技术的兴起19关系数据库技术关系数据库技术经过了将近 40 年的发展,成为一门成熟的、同时仍在不断演进的主流数据管理和分析技术.关系数据管理技术的主流应用包括OLTP 应用、OLAP 应用以及数据仓库等.SQL 语言作为存取关系数据库系统的语言得到了标准化,经过不断扩充,其功能和表达能力不断增强.20关系数据库技术但是,关系数据管理技术在大数据时代丧失了互联网搜索这个机会其主要原因是关系数据管理系统(并行数据库)的扩展性遇到了前所未有的障碍,不能胜任大数据分析的要求21关系数据库技术关系
7、数据管理模型追求的是高度的一致性和正确性.面向超大数据的分析需求纵向扩展(scale up)系统,即通过增加或者更换CPU、内存、硬盘以扩展单个节点的能力,终将遇到瓶颈横向扩展(scale out)系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并行执行,才是经济的解决办法.22关系数据库技术使用大规模集群实现大数据的管理和分析,需要应对的挑战很多,其中,系统的可用性摆到了重要的位置23关系数据库技术根据CAP(consistency,availability,tolerance to network partitions)理论(Towards Robust Distribute
8、d Systems.PODC2004 Keynote)(对该理论尚存争议),在分布式系统中,一致性、可用性、容错性三者不可兼得,追求其中两个目标必将损害另外一个目标24关系数据库技术并行数据库系统追求高度的一致性和容错性(通过分布式事务、分布式锁等机制),无法获得良好的扩展性和系统可用性,而系统的扩展性是大数据分析的重要前提.25MapReduce2004 年,Google 公司最先提出MapReduce技术,作为面向大数据分析和处理的并行计算模型,引起了工业界和学术界的广泛关注.MapReduce 在设计之初,致力于通过大规模廉价服务器集群实现大数据的并行处理,它把扩展性和系统可用性放在了优
9、先考虑的位置.26MapReduce 技术框架分布式文件系统并行编程模型并行执行引擎27分布式文件系统(Google file system)分布式文件系统运行于大规模集群之上,集群使用廉价的机器构建.数据采用键/值对(key/value)模式进行存储.整个文件系统采用元数据集中管理、数据块分散存储的模式,通过数据的复制(每份数据至少3 个备份)实现高度容错.数据采用大块存储(64MB 或者128MB 为1 块)的办法,可方便地对数据进行压缩,节省存储空间和传输带宽.28MapReduce 并行编程模型并行编程模型把计算过程分解为两个主要阶段,即Map 阶段和Reduce 阶段.Map 函数处
10、理Key/Value 对,产生一系列的中间Key/Value 对Reduce 函数用来合并所有具有相同Key 值的中间键值对,计算最终结果.29MapReduce 并行编程模型MapReduce 技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题通过接受用户编写的Map 函数和Reduce 函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据30MapReduce 并行编程模型MapReduce 技术是非关系数据管理和分析技术的典型代表.在Google 公司内部,通过大规模集群和MapReduce 软件,每天有超过20PB 的数据得到处理,每个月处理的数
11、据量超过400PB31MapReduce 并行编程模型在数据分析的基础上,Google 提供了围绕互联网搜索的一系列服务(包括地图服务、定向广告服务等).如此大规模的数据管理和分析,是传统的关系数据管理技术所无法完成的32MapReduce 技术的发展一经推出,立即遭到关系数据管理技术阵营(以著名的数据库技术专家Stonebraker 为代表)的猛烈抨击.Stonebraker 认为,MapReduce 技术是一个巨大的倒退,并指出了MapReduce 技术的众多缺点,包括不支持Schema没有存取优化依靠蛮力(brute force)进行数据处理等33MapReduce 技术的发展Stone
12、braker 等人在100 个节点的集群上对Hadoop 技术(MapReduce 的开源实现)Vertica 数据库(一种基于列存储的关系数据库管理系统)DBMS-X 数据库(某厂商提供的商用数据库)进行了数据装载和数据分析的性能比较,发现Map Reduce 的性能远远低于Vertica 和DBMS-X.但Stonebraker 的批判并没有阻挡住以MapReduce 技术为代表的大数据分析新技术的发展洪流.34MapReduce 技术的发展近几年来,MapReduce 技术获得了广泛的关注,研究人员围绕MapReduce 开展了深入的研究,包括MapReduce 应用领域的扩展MapRe
13、duce 性能的提升MapReduce 易用性的改进等同时,MapReduce 技术和RDBMS 也出现了相互借鉴相互渗透的趋势35MapReduce应用领域的扩展应用领域的扩展MapReduce 技术已经从围绕搜索的数据分析扩展到数据挖掘、机器学习、信息检索、计算机仿真、科学实验数据处理(生物、物理)等众多的领域36MapReduce应用领域的扩展应用领域的扩展针对传统分析软件扩展性差以及Hadoop 分析功能薄弱的特点,IBM 公司的研究人员致力于对R 和Hadoop的集成.R 是开源的统计分析软件,通过R 和Hadoop 的深度集成,把计算推向数据并且并行处理,使Hadoop 获得了强大
14、的深度分析能力37MapReduce应用领域的扩展应用领域的扩展Purdue 大学的RHIPE 项目(http:/ml.stat.purdue.edu/rhipe/index.html)也致力于R 和Hadoop 的集成,为大数据分析提供开发环境的支持38MapReduce应用领域的扩展应用领域的扩展Wegener 等人则实现了Weka(类似于R 的开源的机器学习和数据挖掘工具软件)和MapReduce 的集成.39MapReduce应用领域的扩展应用领域的扩展标准版Weka 工具只能在单机上运行,并且不能超越1GB 内存的限制.经过算法的并行化,在MapReduce 集群上,Weka 不仅突
15、破了原有的可处理数据量的限制,轻松地对超过100GB 的数据进行分析,同时利用并行计算提高了性能.经过改造的Weka,赋予MapReduce 技术深度分析的能力40MapReduce应用领域的扩展应用领域的扩展若干开发者发起了Apache Mahout 项目的研究,该项目是基于Hadoop 平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能41MapReduce性能提升的研究多核硬件与GPU 上的性能改进索引技术与连接技术的优化调度技术优化其他优化技术42多核硬件与GPU 上的性能改进MIT和Manchester 大学的研究人员研究了多核硬件上的MapRe
16、duce 性能改进研究了Cell Broadband Engine 上的MapReduce 性能优化技术,其中,Wisconsin 大学的研究人员利用Cell Sort 算法,充分发挥硬件能力,极大地提高了排序的性能43多核硬件与GPU 上的性能改进GPU 的核心数量和工作频率不断提高,Texas 大学Austin 分校等科研机构的研究人员,就如何利用GPU 提高MapReduce 的执行性能展开了研究清华大学和IBM 实验室的研究人员提出了Map CG,在源代码级提供CPU 编程和GPU 编程的可移植性,大大提高了MapReduce 程序编写的容易程度.44Ohio 州立大学的研究人员面向多
17、核环境,提出MATE 编程接口与环境,不仅减小了内存占用,同时,性能也大大超越Hadoop 和Phoenix(Phoenix 是一种MapReduce 的C+实现,http:/MapReduce.stanford.edu/).45索引技术与连接技术的优化中国科学院计算技术研究所围绕 MapReduce 开展了索引优化、利用分布式内存Cache 提高性能等研究46索引技术与连接技术的优化有人提出事实表上的虚拟视图(virtual view over fact table)、事实表和维表连接的优化、基于列存储的压缩等技术,提高了MapReduce 环境下星型模型上的OLAP 类应用的执行性能.47
18、索引技术与连接技术的优化也有人通过对MapReduce 执行函数的分析,对MapReduce 查询进行改写,充分利用SQL 数据库的索引、聚集函数等功能,提高MapReduce 函数的执行效率48索引技术与连接技术的优化有人研究MapReduce 架构下面向日志处理的连接操作的性能,在100 个节点组成的Hadoop 集群上进行若干连接技术的性能研究,包括标准的重新分区连接方法、改进的重新分区连接方法、直接连接方法、广播连接方法、半连接、基于分片的半连接等,为不同应用场景下使用不同的连接技术提供了参考49索引技术与连接技术的优化周傲英等人提出基于MapReduce 的列存储数据的连接优化方法,
19、极大地加快了连接的速度.有人研究了星型模型上特大事实表和特小维表之间的连接优化方法和图数据上的路径连接(chain join)优化方法.50调度技术优化有人试图利用基于优先级的调度策略提高MapReduce 的运行效率.有人提出了基于MPI 的MapReduce 优化实现,利用MPI-3 的新特性,比如MPI Reduce Local 等,在127 个节点的集群上获得25%的性能提升51调度技术优化Toronto 大学和Boston 大学的研究人员尝试在多个MapReduce Job 之间进行查询处理工作的共享,以此提高系统的总体吞吐能力.Purdue 大学的研究人员通过放松同步要求和饥渴式调
20、度方法,提高MapReduce 任务的执行效率52调度技术优化Barcelona 超级计算中心和IBM Watson 实验室的研究人员研究了任务联合调度策略,以期提高性能.有人研究了异构处理器和异构集群环境下新的任务调度算法,保证并行任务执行的性能不受异构环境的负面影响53其他优化技术使用基于指纹的分组方法、直接存取文件系统、在数据解析中使用可变的Java 对象、使用索引以及数据块感知的调度方法等,一举提高Hadoop 系统的数据分析性能,大幅度逼近传统关系数据库的性能.有人指出,在大规模数据分析领域,基于Hadoop 的数据分析系统具有比传统数据库更好的扩展性,足以使得Hadoop 系统成为
21、和并行数据库正面竞争的一支力量54其他优化技术Berthold 等人基于Eden 平台,使用延迟数据流处理、动态应答通道、数据流合并等技术优化MapReduce 的实现有文献提出利用生产者和消费者的共享缓冲区,消除MapReduce 两个计算阶段(Map 阶段和Reduce 阶段)的传输瓶颈.有文献提出在MapReduce 两个计算阶段的基础上增加一个Merge 阶段,以更好地支持集合合并、Join 等操作,同时提出了合并Reduce 和Merge 操作以改进性能的办法55其他优化技术韩国科学技术院以及三星公司、Yahoo 公司的研究人员,利用预取技术和预Shuffle 技术提高MapRedu
22、ce 的执行性能Duke 大学的研究人员进行了MapReduce 执行系统的自调优研究,以减轻运行时系统的手工配置要求56MapReduce易用性的改进易用性的改进针对 MapReduce 技术缺乏类似SQL 的标准存取语言、依靠底层语言编程的弱点,研究人员研究更为高层的、表达能力更强的语言和系统,包括Yahoo 的Pig、Microsoft 的LINQ、Hive 等.57MapReduce易用性的改进易用性的改进Pig 是编写MapReduce程序的脚本语言Yahoo 不仅致力于提高MapReduce 的易用性,同时还不断提高Pig 的性能,采用包括操作符间的Pipeline 等技术避免物化
23、中间结果,从而提高性能,并且支持数据流的处理58MapReduce易用性的改进易用性的改进此外,Microsoft的Dryad 系统通过有向无环图表达基于串行程序的并行计算,进而在大规模集群上并行执行.虽然与MapReduce 技术在概念上有些区别,但从渊源来看,可以把它看成是MapReduce 技术的变种,同属非关系数据管理和分析技术阵营59MapReduce易用性的改进易用性的改进Hive是基于Hadoop 的大型数据仓库系统,实现了Schema,SQL 查询等类关系数据库的功能Facebook 在Hive 上实现了例行性报表、即席(ad hoc)查询、机器学习以及其他复杂的数据分析;通过
24、SQL接口,改善了MapReduce 技术的易用性和接受度60MapReduce易用性的改进易用性的改进有文献提出Hadoop-ML,利用该语言环境,开发人员可以很方便地在程序块的基础上构建任务并行或数据并行的机器学习和数据挖掘算法61MapReduce易用性的改进易用性的改进开源软件Cascading 是基于Hadoop 的一个Java 库,包含查询API(query API)、查询计划器(query planner)和进程调度器(process scheduler),是Hadoop 上的工作流软件,开发者可以在Cascading 的基础上快速地组装并行数据处理程序62RDBMS 和和Map
25、Reduce 技术的技术的竞争与相互渗透竞争与相互渗透MapReduce 技术在广泛用于搜索相关的数据分析工作之后,随着其性能的不断提升和应用领域的扩展,迅速成为RDBMS 的年轻的竞争者,两者的竞争也促进了其相互学习和渗透63RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透RDBMS 与MapReduce 的特点比较64RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透MIT 的研究人员借鉴MapReduce 的容错思想,试图在Shared Nothing 架构的并行数据库系统上实现更高的容错性能,取得良好的容错和负载均衡效果.65RDB
26、MS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透HadoopDB是试图混合MapReduce 和RDBMS 技术的一项重要工作在HadoopDB 中,系统清晰地分成两层,上层使用Hadoop 进行任务的分解和调度,下层用RDBMS(Postgresql)进行数据的查询和处理66RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透HadoopDB的创新之处是:试图利用Hadoop 的任务调度机制提高系统的扩展性和容错性,以解决大数据分析的横向扩展问题;利用RDBMS 实现数据存储和查询处理,以解决性能问题.在其性能实验中,HadoopDB 的性能仍
27、然落后于关系数据库系统.67RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透Yale 大学Abadi 领导的小组正在使用包括列存储、持续装载和分析等技术,以改进HadoopDB 的性能68RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透Greenplum(已被EMC收购)和Aster Data（已被TERADATA收购）是两家新兴的面向大数据分析的公司,他们采用的策略是在MPP 架构的并行数据库里内置地支持M a p R e d u c e,其核心引擎同时作为MapReduce 作业的执行引擎69
28、RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透两家公司正在进行一项重要的工作,即对分析函数进行MapReduce 风格的并行化.通过并行化,数据分析函数的执行性能大幅提升.通过引进MapReduce 计算模型的思想,对传统的并行数据库进行改造,两家公司的MPP 架构的并行数据库系统可以轻松扩展到几百个节点的规模.70RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透Aster Data 更是在2010 年中发布了超过30 个的分析软件包,提供上千个可以定制的分析函数,这些函数都将以并行的方式运行在MPP 平台上,从而在性能上大大超越传统的
29、RDBMS 用户自定义函数(UDF).71RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透随着MapReduce 技术性能的提升、应用领域的扩展,关系数据管理技术和MapReduce 技术的争论一直持续着.72RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透2010 年初,ACM 通讯杂志同时向Stonebraker以及Google 的Dean 进行约稿Dean 指出,MapReduce是进行大规模数据分析处理的灵活而有效的工具;而Stonebraker 则从最初的对MapReduce 技术的彻底否定,转为肯定MapReduce 的良好扩
30、展性,并且指出,MapReduce 非常适合做ETL 这样的工作73RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透目前,越来越多的数据库研究人员(包括Stonebraker 在内)逐渐意识到,MapReduce 和关系数据库可以互相学习,并且走向集成MapReduce 可以从RDBMS 学习查询优化、Schema 支持、外围工具(ETL 工具、可视化工具等)支持等而RDBMS 可以从MapReduce 学习得到高度的扩展性和容错性、快速装载、易于使用等特点.74RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透除了Greenplum,As
31、ter Data 等新兴公司以外,Oracle,Teradata,IBM,Vertica 等传统数据库厂商也致力于MapReduce 和RDBMS 的集成它们所采用的策略基本类似,即在RDBMS 引擎内支持MapReduce 作业的运行.75RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争与相互渗透与Greenplum 和Aster Data 的分析函数并行化改写技术方案相比,Teradata的工作相对简单,仅仅实现了数据装载的加速、数据库表和HDFS(Hadoop file system)的互相转换等功能76RDBMS 和和MapReduce 技术的技术的竞争与相互渗透竞争
32、与相互渗透Vertica 数据库系统在2009 年底开始了MapReduce 技术的集成,通过集成,使得Vertica 数据库不仅能够处理结构化数据,而且能够处理非结构化数据和半结构化数据Vertica 数据库的前身是C-Store 数据库原型,C-Store 数据库是在Stonebraker 的领导下开发的基于列存储、大内存、压缩等技术,面向数据分析应用的数据库系统,Stonebraker 本人为Vertica 的CTO.77把分析推向数据以及数据分析新生态系统的浮现把分析推向数据新生态系统的浮现78把分析推向数据随着数据量的增长,对大数据进行分析的基本策略是把计算
33、推向数据,而不是移动大量的数据79把分析推向数据围绕关系数据库管理系统,衍生出了传统的数据分析生态系统(eco-system,生态系统是指多种生物共存共生的自然系统,在这里用来表达围绕数据分析的共存的各类系统和工具)8081把分析推向数据关系数据库作为核心的数据引擎,各种来源的数据通过ETL 工具导入关系数据库系统,客户端工具通过SQL 语言实现例行性的报表生成.针对复杂的分析,SQL 的表达能力就暴露出了其局限性,无法胜任.这时,必须把数据从数据库中提取出来,导入前端分析工具(SAS,SPSS)以进行后续分析82把分析推向数据这种模式的主要缺点是,由于SQL 分析能力的局限,需要借助于统计分
34、析软件进行数据的深度建模和分析,导致了大量数据的移动需要指出的是,当分析人员从关系数据库中利用SQL 查询把数据提取到分析软件中(比如SAS)进行后续分析时,SQL 退化成为数据提取的接口.83把分析推向数据最为致命的是,大量数据的移动导致性能下降,这是大规模数据分析所应该极力避免的值得指出的是,SAS 等数据分析厂商正在致力于把分析能力下压到数据库系统执行,但是进行得不是很彻底,分析函数的并行化以及系统的扩展性仍然是有待解决的问题.84把分析推向数据相对于RDBMS,MapReduce 技术从存储模型和计算模型上支持更高的容错性、更强的扩展性,为大数据分析提供了很好的运行平台保障.同时,难以
35、用SQL 进行表达的分析任务更容易用MapReduce 计算函数表达(如图分析、各种数据挖掘算法等).可见,MapReduce 技术在数据的深度分析上比RDBMS 更胜一筹.85新生态系统的浮现随着 MapReduce 技术的兴起,数据分析的生态系统正在发生变化Facebook 的系统就是一个典型的范例Facebook 系统的数据量是15PB(压缩以后为2.5PB),每天增加的数据量是60TB(压缩以后是10TB).如此庞大的数据量迫使Facebook 采用新的数据处理架构.86新生态系统的浮现87新生态系统的浮现在Facebook 数据分析系统中,关系数据库系统处在系统的边缘(挂接在Web
36、server farm 上),负责进行OLTP 类的事务处理.交易数据通过定时的装载,导入核心生产用Hive 系统(production Hive-Hadoop cluster),重要的分析功能在Hive 系统里面完成.88新生态系统的浮现经过分析和聚集的结果,可以重新注入关系数据库系统(包括Oracle RAC,federated MySQL 等),接受用户的查询.为了减轻即席查询对核心Hive 系统的压力,数据被复制到一个备份的Hive 系统(ad hoc Hive-Hadoop cluster),进行用户即席查询的处理,隔离未经优化的查询有可能给核心Hive 系统造成的性能冲击,保证核心
37、数据分析系统的性能.89新生态系统的浮现在这个生态系统里,RDBMS 负责其擅长的OLTP 类应用,为大数据分析平台提供数据源数据深度分析之后的汇总数据和分析结果重新导入RDBMS,供用户观察(包括可视化)和使用90新生态系统的浮现前端工具不再承担分析功能,仅仅实现数据的可视化;RDBMS 担任数据集市(data mart)的角色;真正的复杂深度的分析,依靠高度可扩展的Hadoop 系统来完成.由于MapReduce 技术所具有的良好的扩展性,可以实现大量历史数据的在线,历史久远的数据也可以唾手可得地进行分析,结合新数据和新算法,有利于新知识的发现.91当前研究热点(1)更加复杂的分析、更大规
38、模的分析在MapReduce 模型上实现更加复杂和更大规模的分析,比如更细粒度的仿真、时间序列分析、大规模图分析和大规模社会计算等92当前研究热点比如有文献提出在MapReduce 上的增量式数据挖掘方法,能够极大地缩短数据挖掘的时间.此外,基于数据流的数据分析和挖掘也是加快知识获取速度的可行办法,Brown 大学已经开始这方面的研究(C-MR 系统)(ftp:/ftp.cs.brown.edu/pub/techreports/10/cs10-01.pdf);93当前研究热点(3)开发、调试与管理工具:在大数据上进行复杂的并行分析,需要开发、调试、管理等一整套支撑环境的支持94当前研究热点(4
39、)云平台上MapReduce 计算的节能问题与调度优化:MapReduce 作为云平台上进行大规模数据处理的重要技术,其节能问题引起了研究人员的兴趣,已有研究人员开始了这方面的研究.此外,云平台上的MapReduce 计算的调度优化也是必须解决的问题95当前研究热点(5)突破MapReduce 计算模型的局限性:深入分析MapReduce 计算模型内在的局限性,考虑如何改进或扩展MapReduce.比如提高MapReduce 系统的容错性改善MapReduce 系统任务调度的方法超越MapReduce 的局限性,实现更为有效的并行计算模型96当前研究热点Washington 大学的研究人员对M
40、apReduce 框架进行了扩展,使之能够有效地支持迭代式并行程序的执行97当前研究热点(6)关系数据库和MapReduce 混合技术研究:如上文所述,关系数据库和MapReduce 技术各有优缺点,如何融合关系数据库和MapReduce 技术,设计同时具备两者优点的技术架构(既有MapReduce 的高度扩展性和容错性,又有RDBMS 的高性能),也是大数据分析技术的研究趋势98总结面对大数据深度分析的挑战,关系数据库技术的扩展性遇到了前所未有的困难同时,SQL 的表达能力不足以进行复杂深入的数据分析99总结MapReduce 技术具有简洁的模型、良好的扩展性、容错性和并行性,随着其性能的不断改进和分析能力的不断增强(与R,Weka 的结合等),在大数据分析的技术竞争中异军突起关系数据库技术和MapReduce 技术相互竞争、相互学习和相互渗透,促进了数据分析新生态系统的浮现100总结在新生态系统中,关系数据库技术和MapReduce 技术找到了自己的位置,发挥出各自的优势,从大数据中分析和发现有用的知识101

展开阅读全文