Hadoop及子项目介绍课件.ppt

上传人（卖家）：三亚风情

文档编号：3228751

上传时间：2022-08-08

格式：PPT

页数：34

大小：1,001.50KB

文档加载中……请稍候！
如果长时间未打开，您也可以点击刷新试试。

下载文档到电脑，查找使用更方便

25 文币

交易提醒：下载本文档，相应价格的文币将全额进入上传人（卖家）的账号。立即下载优惠套餐（点此详情）

【下载声明】
1. 本站全部试题类文档，若标题没写含答案，则无答案；标题注明含答案的文档，主观题也可能无答案。请谨慎下单，一旦售出，不予退换。
2. 本站全部PPT文档均不含视频和音频，PPT中出现的音频或视频标识（或文字）仅表示流程，实际无音频或视频文件。请谨慎下单，一旦售出，不予退换。
3. 本页资料《Hadoop及子项目介绍课件.ppt》由用户（三亚风情）主动上传，其收益全归该用户。163文库仅提供信息存储空间，仅对该用户上传内容的表现方式做保护处理，对上传内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知163文库（点击联系客服），我们立即给予删除！
4. 请根据预览情况，自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器，压缩文件请下载最新的WinRAR软件解压。

配套讲稿：: 如PPT文件的首页显示word图标，表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
特殊限制：: 部分文档作品中含有的国旗、国徽等图片，仅作为作品整体效果示例展示，禁止商用。设计者仅对作品中独创性部分享有著作权。
关键词：: Hadoop 项目介绍课件

资源描述：: 1、Hadoop培训Hadoop与子项目介绍2013.011 产生背景纽约证券交易所每天产生1TB的交易数据。社交网站facebook的主机存储着约10亿张照片，占据PB级存储空间。瑞士日内瓦附近的大型强子对撞机每年产生约15PB的数据。2004年Google公布了关于GFS、MapReduce和BigTable三篇技术论文。2006年2月-Apache Hadoop项目正式启动以支持MapReduce和HDFS的独立发展。2 Hadoop简介 Hadoop 一个分布式系统基础架构，由Apache基金会开发。由Common、HDFS、MapReduce、HBase、Hive、Pig、Avro、C
2、hukwa和 ZooKeeper等成员组成。其中，HDFS 和MapReduce 是两个最基础最重要的成员。Hadoop 数据来源可为任何形式，最终转换为键/值对以供处理。3 Hadoop简介 Hadoop专为离线处理和大规模数据分析而设计的。Hadoop程序目前只能运行在Linux系统上，window上需要安装其他插件。Windows作为一个开发平台而非生产平台。Hadoop自身由Java语言开发，但它除了使用Java语言进行编程外，同样支持多种编程语言，如C+。4 Hadoop特点扩容能力（Scalable）：能可靠地（reliably）存储和处理千兆字节（PB）数据。成本低（Econo
3、mical）：可以通过普通机器组成的服务器群来分发以及处理数据。这些服务器群总计可达数千个节点。5 Hadoop特点高效率（Efficient）：通过分发数据，hadoop可以在数据所在的节点上并行地（parallel）处理它们，这使得处理非常的快速。可靠性（Reliable）：hadoop能自动地维护数据的多份复制，并且在任务失败后能自动地重新部署（redeploy）计算任务。6 Hadoop核心HDFS HDFS 是Google GFS 的开源版本，一个高度容错的分布式文件系统，它能够提供高吞吐量的数据访问，适合存储海量（PB 级）的大文件（通常超过64M）。以高时间延迟为代价，不适合低
4、延迟的访问需求。HDFS不适合：存储小文件、大量的随机读、需要对文件的修改。设计目标：任何一个节点失效，不影响HDFS服务、可以自动完成副本的复制。7 Hadoop核心HDFS 原理图8 Hadoop核心HDFS 采用Master/Slave 结构。NameNode 维护集群内的元数据，对外提供创建、打开、删除和重命名文件或目录的功能。DatanNode 存储数据，并提负责处理数据的读写请求。9 Hadoop核心HDFS 文件切分成块（默认大小64M），以块为单位，每个块有多个副本存储在不同的机器上，副本数可在文件生成时指定（默认3）文件创建、写入和关闭之后不能修改文件内容。DataNode定
5、期向NameNode 上报心跳，NameNode 通过响应心跳来控制DataNode。运行中可以安全加入和退出DataNode。10 Hadoop核心HDFS 如何管理数据 1、文件块三份备份。2、心跳机制。3、数据校验。4、安全模式。5、数据管道性的写入。6、数据复制。7、单个NameNode。11 Hadoop核心HDFS之文件文件12 Hadoop核心HDFS之文件写文件13Write packetCreate file Write packetWrite packetSend ackSend ackSend ackClose file Hadoop核心HDFS之文件写数据块14
6、Hadoop核心HDFS之文件读文件15Read blockOpen fileClose fileGet block location Hadoop核心HDFS之异常 DataNode的磁盘坏了 DataNode所在机器坏了 Client所在机器坏了(lease)NameNode坏了持久化元数据：操作日志和Fsimage Secondary NameNode-元数据提供冷备16 Hadoop核心MapReduce MapReduce 是大规模数据（TB 级）计算的利器，Map 和Reduce 是它的主要思想。也采用了Master/Slave 结构。Master 叫做JobTracker，而
7、Slave 叫做TaskTracker。用户提交的计算叫做Job，每一个Job 会被划分成若干个Tasks。JobTracker负责Job 和Tasks 的调度，而TaskTracker负责执行Tasks。17 MapReduce工作原理提交MapReduce 作业，即一个job。jobTracker协调作业的运行。taskTracker：作业划分后的任务（一个job对应多个task,一个task对应一个或者多个MapReduce线程）。18MapReduce程序1：run jobJobClient客户端JVMJobTrackerTaskTrackerChildMapTask或者Red
8、uceTaskJobtracker节点子JVMTasktracker 节点HDFS2：get new job ID3:copy Jobresources4:submit job5:initialize job6:retrieve Input splits7:returns task8:retrieve jobresources10:run9:launch Hadoop核心MapReduce 特性自动实现分布式并行计算容错master与slave通过心跳保活提供状态监控工具模型抽象简洁，程序员易用（所需要做的是实现map()和reduce()函数，剩下的框架完成。Map 负责将数据打散
9、，Reduce负责对数据进行聚集。）19 Hadoop核心MapReduce 数据流20 MapReduce示例21 MapReduce示例22 MapReduce示例23 MapReduce示例24 Hadoop相关子项目25子项目子项目作用作用Common为Hadoop其他子项目提供支持的常用工具，它主要包括FileSystem、RPC和串行化库。ZooKeeper一个分布式的、高可用的协调服务。Zookeeper提供分布式锁之类的基本服务用于构建分布式应用。Avro一种提供高效、跨语言RPC的数据序列系统，持久化数据存储；提高分布式传输效率。Hbase一个分布式的，列存储数据库，使用HD
10、FS作为底层存储，同时支持MapReduce的批量式计算和点查询。Hive分布式数据仓库。Hive管理HDFS中存储的数据，并提供基于SQL的查询语言用以查询数据。Pig一种用于探索大型数据集的脚本语言，用以检索非常大的数据集。Pig运行在MapReduce和HDFS的集群上。Chukwa开源的数据收集系统，用于监控和分析大型分布式系统的数据。Hadoop子项目ZooKeeper ZooKeeper是Hadoop的正式子项目，它是一个针对大型分布式系统的可靠协调系统，提供的功能包括：配置维护、名字服务、分布式同步、组服务等。ZooKeeper的目标就是封装好复杂易出错的关键服务，将简单易用的接
11、口和性能高效、功能稳定的系统提供给用户。ZooKeeper是使用Java编写的，但是它支持Java和C两种编程语言。26 Hadoop子项目Avro 是用于数据序列化的系统。提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。Avro系统依赖于模式（Schema），数据的读和写是在模式之下完成的。在RPC中，Avro系统的客户端和服务端通过握手协议进行模式的交换。27 Hadoop子项目Hbase HBase是一个适合于非结构化数据存储的数据库。HBase是基于列而不是基于行的模式，表是疏松的，用户可以为行定义各种不同的列
12、。HBase主要用于需要随机访问、实时读写的大数据（Big Data）。一个高可靠性、高性能、面向列、可伸缩的分布式存储系统，利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。28 Hadoop子项目Hive 是一个建立在Hadoop基础之上的数据仓库，提供了一些用于对Hadoop文件中的数据集进行数据整理、特殊查询和分析存储的工具。Hive提供的是一种结构化数据的机制，它支持类似于SQL语言的查询语言，该查询语言称为Hive QL。Hive编译器会把Hive QL编译成一组MapReduce任务，从而方便MapReduce编程人员进行Hadoop系统开发。29 Had
13、oop子项目Pig Pig是一个对大型数据集进行分析、评估的平台。Pig最突出的优势是它的结构能够经受住高度并行化的检验，这个特性使得它能够处理大型的数据集。Pig的语言层由一种叫做Pig Latin的正文型语言组成。30 Hadoop子项目Chukwa Chukwa是开源的数据收集系统，用于监控和分析大型分布式系统的数据。Chukwa是在HDFS和MapReduce框架之上搭建的，它继承了Hadoop的可扩展性和健壮性。Chukwa通过HDFS来存储数据，并依赖MapReduce任务处理数据。Chukwa中也附带了灵活且强大的工具，用于显示、监视和分析数据结果，以便更好地利用所收集的数据。31 Hadoop及子项目总结 HDFS-最大化利用磁盘 MapReduce-最大化利用 CPU HBase-最大化利用内存 MapReduce 和 HBase 都将数据存储在 HDFS，HBase 利用了 MapReduce 的计算能力。Pig 和 Hive 则为更高层的建筑，降低了使用 Hadoop 的门槛，提高了 Hadoop 开发效率。ZooKeeper和Common 成员可以说是地基，是为上层建筑（包括高层）服务的。32 智能交通应用技术架构图3334

展开阅读全文

163文库所有资源均是用户自行上传分享，仅供网友学习交流，未经上传用户书面授权，请勿作他用。

关于本文

本文标题：Hadoop及子项目介绍课件.ppt
链接地址：https://www.163wenku.com/p-3228751.html

三亚风情

内容提供者

实名认证

联系作者