大数据基本概念和研究热点(102p)102课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据基本概念和研究热点(102p)102课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 基本概念 研究 热点 102 课件
- 资源描述:
-
1、Big Data1大数据时代在科学研究(天文学、生物学、高能物理等)计算机仿真互联网应用电子商务等领域数据量呈现快速增长的趋势2大数据时代在科学研究方面:大型强子对撞机每年积累的新数据量为15PB 左右在电子商务领域:沃尔玛公司每天通过 6000 多个商店,向全球客户销售超过 2.67 亿件商品为了对这些数据进行分析,HP 公司为沃尔玛公司建造了大型数据仓库系统,数据规模达到 4PB,并且仍在不断扩大3大数据时代大规模数据主要来源1:传感器数据分布在不同地理位置上的传感器,对所处环境进行感知,不断生成数据.即便对这些数据进行过滤,仅保留部分有效数据,长时间累积的数据量也是非常惊人的4大数据时代
2、大规模数据主要来源2:网站点击流数据为了进行有效的市场营销和推广,用户在网上的每个点击及其时间都被记录下来;利用这些数据,服务提供商可以对用户存取模式进行仔细的分析,从而提供更加具有针对性的服务5大数据时代大规模数据主要来源3:移动设备数据通过移动电子设备包括移动电话和PDA、导航设备等,我们可以获得设备和人员的位置、移动、用户行为等信息,对这些信息进行及时的分析,可以帮助我们进行有效的决策,比如交通监控和疏导系统6大数据时代大规模数据主要来源4:射频 ID 数据RFID 可以嵌入到产品中,实现物体的跟踪.一旦 RFID 得到广泛的应用,将是大量数据的主要来源之一7数据分析的新趋势:超越常规报
3、表的深度分析需求的增长为了从数据中发现知识并加以利用,指导人们的决策,必须对数据进行深入的分析,而不是仅仅生成简单的报表.这些复杂的分析必须依赖于复杂的分析模型,很难用SQL 来进行表达,统称为深度分析(deep analysis).8人们不仅需要通过数据了解现在发生了什么,更需要利用数据对将要发生什么进行预测,以便在行动上做出一些主动的准备比如,通过预测客户的流失预先采取行动,对客户进行挽留.910这里,典型的OLAP 数据分析操作(对数据进行聚集、汇总、切片和旋转等)已经不够用,还需要路径分析、时间序列分析、图分析、What-if 分析以及由于硬件/软件限制而未曾尝试过的复杂统计分析模型1
4、1时间序列分析商业组织积累了大量的交易历史信息,企业的各级管理人员希望从这些数据中分析出一些模式,以便从中发现商业机会,通过趋势分析,甚至预先发现一些正在涌现出来的机会.12时间序列分析比如在金融服务行业,分析人员可以开发针对性的分析软件,对时间序列数据进行分析,寻找有利可图的交易模式(profitable trading pattern),经过进一步验证之后,操作人员可以使用这些交易模式进行实际的交易,获得利润13大规模图分析和网络分析社会网络虚拟环境本质上是对实体连接性的描述.在社会网络中,每个独立的实体表示为图中的一个节点,实体之间的联系表示为一条边.14大规模图分析和网络分析通过社会网
5、络分析,可以从中发现一些有用的知识比如发现某种类型的实体(有一种类型的实体把各个小组连接在一起,称为网络中的关键实体).这些信息可以用于产品直销、组织和个体行为分析、潜在安全威胁分析等领域.15一种处理大数据的方法是使用采样技术通过采样,可以把数据规模变小,以便利用现有的技术手段(关系数据库系统)进行数据管理和分析.然而在某些应用领域,采样将导致信息的丢失,比如DNA 分析等.在明细数据上进行分析,意味着需要分析的数据量将急剧膨胀和增长.16数据分析的趋势和挑战1)数据量的膨胀;2)数据深度分析需求的增长3)数据类型多样化包括各种非结构化、半结构化数据,对这些类型多样的数据进行管理和分析也是数
6、据处理技术所面临的挑战.1718以MapReduce 为代表的为代表的非关系数据管理技术的兴起非关系数据管理技术的兴起19关系数据库技术关系数据库技术经过了将近 40 年的发展,成为一门成熟的、同时仍在不断演进的主流数据管理和分析技术.关系数据管理技术的主流应用包括OLTP 应用、OLAP 应用以及数据仓库等.SQL 语言作为存取关系数据库系统的语言得到了标准化,经过不断扩充,其功能和表达能力不断增强.20关系数据库技术但是,关系数据管理技术在大数据时代丧失了互联网搜索这个机会其主要原因是关系数据管理系统(并行数据库)的扩展性遇到了前所未有的障碍,不能胜任大数据分析的要求21关系数据库技术关系
7、数据管理模型追求的是高度的一致性和正确性.面向超大数据的分析需求纵向扩展(scale up)系统,即通过增加或者更换CPU、内存、硬盘以扩展单个节点的能力,终将遇到瓶颈横向扩展(scale out)系统,即通过增加计算节点连接成集群,并且改写软件,使之在集群上并行执行,才是经济的解决办法.22关系数据库技术使用大规模集群实现大数据的管理和分析,需要应对的挑战很多,其中,系统的可用性摆到了重要的位置23关系数据库技术根据CAP(consistency,availability,tolerance to network partitions)理论(Towards Robust Distribute
8、d Systems.PODC2004 Keynote)(对该理论尚存争议),在分布式系统中,一致性、可用性、容错性三者不可兼得,追求其中两个目标必将损害另外一个目标24关系数据库技术并行数据库系统追求高度的一致性和容错性(通过分布式事务、分布式锁等机制),无法获得良好的扩展性和系统可用性,而系统的扩展性是大数据分析的重要前提.25MapReduce2004 年,Google 公司最先提出MapReduce技术,作为面向大数据分析和处理的并行计算模型,引起了工业界和学术界的广泛关注.MapReduce 在设计之初,致力于通过大规模廉价服务器集群实现大数据的并行处理,它把扩展性和系统可用性放在了优
9、先考虑的位置.26MapReduce 技术框架分布式文件系统并行编程模型并行执行引擎27分布式文件系统(Google file system)分布式文件系统运行于大规模集群之上,集群使用廉价的机器构建.数据采用键/值对(key/value)模式进行存储.整个文件系统采用元数据集中管理、数据块分散存储的模式,通过数据的复制(每份数据至少3 个备份)实现高度容错.数据采用大块存储(64MB 或者128MB 为1 块)的办法,可方便地对数据进行压缩,节省存储空间和传输带宽.28MapReduce 并行编程模型并行编程模型把计算过程分解为两个主要阶段,即Map 阶段和Reduce 阶段.Map 函数处
10、理Key/Value 对,产生一系列的中间Key/Value 对Reduce 函数用来合并所有具有相同Key 值的中间键值对,计算最终结果.29MapReduce 并行编程模型MapReduce 技术是一种简洁的并行计算模型,它在系统层面解决了扩展性、容错性等问题通过接受用户编写的Map 函数和Reduce 函数,自动地在可伸缩的大规模集群上并行执行,从而可以处理和分析大规模的数据30MapReduce 并行编程模型MapReduce 技术是非关系数据管理和分析技术的典型代表.在Google 公司内部,通过大规模集群和MapReduce 软件,每天有超过20PB 的数据得到处理,每个月处理的数
11、据量超过400PB31MapReduce 并行编程模型在数据分析的基础上,Google 提供了围绕互联网搜索的一系列服务(包括地图服务、定向广告服务等).如此大规模的数据管理和分析,是传统的关系数据管理技术所无法完成的32MapReduce 技术的发展一经推出,立即遭到关系数据管理技术阵营(以著名的数据库技术专家Stonebraker 为代表)的猛烈抨击.Stonebraker 认为,MapReduce 技术是一个巨大的倒退,并指出了MapReduce 技术的众多缺点,包括不支持Schema没有存取优化依靠蛮力(brute force)进行数据处理等33MapReduce 技术的发展Stone
12、braker 等人在100 个节点的集群上对Hadoop 技术(MapReduce 的开源实现)Vertica 数据库(一种基于列存储的关系数据库管理系统)DBMS-X 数据库(某厂商提供的商用数据库)进行了数据装载和数据分析的性能比较,发现Map Reduce 的性能远远低于Vertica 和DBMS-X.但Stonebraker 的批判并没有阻挡住以MapReduce 技术为代表的大数据分析新技术的发展洪流.34MapReduce 技术的发展近几年来,MapReduce 技术获得了广泛的关注,研究人员围绕MapReduce 开展了深入的研究,包括MapReduce 应用领域的扩展MapRe
13、duce 性能的提升MapReduce 易用性的改进等同时,MapReduce 技术和RDBMS 也出现了相互借鉴相互渗透的趋势35MapReduce应用领域的扩展应用领域的扩展MapReduce 技术已经从围绕搜索的数据分析扩展到数据挖掘、机器学习、信息检索、计算机仿真、科学实验数据处理(生物、物理)等众多的领域36MapReduce应用领域的扩展应用领域的扩展针对传统分析软件扩展性差以及Hadoop 分析功能薄弱的特点,IBM 公司的研究人员致力于对R 和Hadoop的集成.R 是开源的统计分析软件,通过R 和Hadoop 的深度集成,把计算推向数据并且并行处理,使Hadoop 获得了强大
14、的深度分析能力37MapReduce应用领域的扩展应用领域的扩展Purdue 大学的RHIPE 项目(http:/ml.stat.purdue.edu/rhipe/index.html)也致力于R 和Hadoop 的集成,为大数据分析提供开发环境的支持38MapReduce应用领域的扩展应用领域的扩展Wegener 等人则实现了Weka(类似于R 的开源的机器学习和数据挖掘工具软件)和MapReduce 的集成.39MapReduce应用领域的扩展应用领域的扩展标准版Weka 工具只能在单机上运行,并且不能超越1GB 内存的限制.经过算法的并行化,在MapReduce 集群上,Weka 不仅突
15、破了原有的可处理数据量的限制,轻松地对超过100GB 的数据进行分析,同时利用并行计算提高了性能.经过改造的Weka,赋予MapReduce 技术深度分析的能力40MapReduce应用领域的扩展应用领域的扩展若干开发者发起了Apache Mahout 项目的研究,该项目是基于Hadoop 平台的大规模数据集上的机器学习和数据挖掘开源程序库,为应用开发者提供了丰富的数据分析功能41MapReduce性能提升的研究多核硬件与GPU 上的性能改进索引技术与连接技术的优化调度技术优化其他优化技术42多核硬件与GPU 上的性能改进MIT和Manchester 大学的研究人员研究了多核硬件上的MapRe
16、duce 性能改进研究了Cell Broadband Engine 上的MapReduce 性能优化技术,其中,Wisconsin 大学的研究人员利用Cell Sort 算法,充分发挥硬件能力,极大地提高了排序的性能43多核硬件与GPU 上的性能改进GPU 的核心数量和工作频率不断提高,Texas 大学Austin 分校等科研机构的研究人员,就如何利用GPU 提高MapReduce 的执行性能展开了研究清华大学和IBM 实验室的研究人员提出了Map CG,在源代码级提供CPU 编程和GPU 编程的可移植性,大大提高了MapReduce 程序编写的容易程度.44Ohio 州立大学的研究人员面向多
17、核环境,提出MATE 编程接口与环境,不仅减小了内存占用,同时,性能也大大超越Hadoop 和Phoenix(Phoenix 是一种MapReduce 的C+实现,http:/MapReduce.stanford.edu/).45索引技术与连接技术的优化中国科学院计算技术研究所围绕 MapReduce 开展了索引优化、利用分布式内存Cache 提高性能等研究46索引技术与连接技术的优化有人提出事实表上的虚拟视图(virtual view over fact table)、事实表和维表连接的优化、基于列存储的压缩等技术,提高了MapReduce 环境下星型模型上的OLAP 类应用的执行性能.47
18、索引技术与连接技术的优化也有人通过对MapReduce 执行函数的分析,对MapReduce 查询进行改写,充分利用SQL 数据库的索引、聚集函数等功能,提高MapReduce 函数的执行效率48索引技术与连接技术的优化有人研究MapReduce 架构下面向日志处理的连接操作的性能,在100 个节点组成的Hadoop 集群上进行若干连接技术的性能研究,包括标准的重新分区连接方法、改进的重新分区连接方法、直接连接方法、广播连接方法、半连接、基于分片的半连接等,为不同应用场景下使用不同的连接技术提供了参考49索引技术与连接技术的优化周傲英等人提出基于MapReduce 的列存储数据的连接优化方法,
19、极大地加快了连接的速度.有人研究了星型模型上特大事实表和特小维表之间的连接优化方法和图数据上的路径连接(chain join)优化方法.50调度技术优化有人试图利用基于优先级的调度策略提高MapReduce 的运行效率.有人提出了基于MPI 的MapReduce 优化实现,利用MPI-3 的新特性,比如MPI Reduce Local 等,在127 个节点的集群上获得25%的性能提升51调度技术优化Toronto 大学和Boston 大学的研究人员尝试在多个MapReduce Job 之间进行查询处理工作的共享,以此提高系统的总体吞吐能力.Purdue 大学的研究人员通过放松同步要求和饥渴式调
20、度方法,提高MapReduce 任务的执行效率52调度技术优化Barcelona 超级计算中心和IBM Watson 实验室的研究人员研究了任务联合调度策略,以期提高性能.有人研究了异构处理器和异构集群环境下新的任务调度算法,保证并行任务执行的性能不受异构环境的负面影响53其他优化技术使用基于指纹的分组方法、直接存取文件系统、在数据解析中使用可变的Java 对象、使用索引以及数据块感知的调度方法等,一举提高Hadoop 系统的数据分析性能,大幅度逼近传统关系数据库的性能.有人指出,在大规模数据分析领域,基于Hadoop 的数据分析系统具有比传统数据库更好的扩展性,足以使得Hadoop 系统成为
展开阅读全文