大数据技术原理与应用(同名5)课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据技术原理与应用(同名5)课件.ppt》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 技术 原理 应用 同名 课件
- 资源描述:
-
1、Chap02 分布式处理软件架构分布式处理软件架构Hadoophttp:/ 概述概述2.2 Hadoop项目结构项目结构2.3 Hadoop的安装与使用的安装与使用2.4 Hadoop集群的部署与使用集群的部署与使用2.2 Hadoop项目结构Hadoop的项目结构不断丰富发展,已经形成一个丰富的Hadoop生态系统2.2 Hadoop项目结构组件组件功能功能HDFS分布式文件系统MapReduce分布式并行编程模型YARN资源管理和调度器Tez运行在YARN之上的下一代Hadoop查询处理框架HiveHadoop上的数据仓库HBaseHadoop上的非关系型的分布式数据库Pig一个基于Had
2、oop的大规模数据分析平台,提供类似SQL的查询语言Pig LatinSqoop用于在Hadoop与传统数据库之间进行数据传递OozieHadoop上的工作流管理系统Zookeeper提供分布式协调一致性服务Storm流计算框架Flume一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统AmbariHadoop快速部署工具,支持Apache Hadoop集群的供应、管理和监控Kafka一种高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据Spark类似于Hadoop MapReduce的通用并行框架HDFS是什么 分布式文件系统 冗余存储 面向大文件存储设
3、计 面向批量插入设计 基于商用机器提供可靠的数据存储 容忍部分节点故障HDFSRefercece:http:/hadoop.apache.org/docs/r1.0.4/hdfs_design.htmlHDFS系统架构图Metadata(Name,replicas.)(/home/foo/data,6.NameNode元数据操作同步元数据和日志SecondaryNameNodeDFSClient块操作读操作DatanodesDatanodes写操作机架另一个机架DFSClientHDFS相关术语HDFSGFSMooseFS 说明NameNodeMasterMaster整个文件系统的大脑,它提供
4、整个文件系统的目录信息,各个文件的分块信息,数据块的位置信息,并且管理各个数据服务器。DataNodeChunkServerChunkServer分布式文件系统中的每一个文件,都被切分成若务器上,此服务器称之为数据服务器。BlockChunkChunk每个文件都会被切分成若干个块(默认64MB)每一块都有连续的一段文件内容是存储的基本 单位。Packet无无客户端写文件的时候,不是一个字节一个字节写 入文件系统的,而是累计到一定数量后,往文件个数据包。Chunk无Block(64KB)在每一个数据包中,都会将数据切成更小的块(512 字节),每一个块配上一个 奇偶校验码(CRC),这样的块,就
5、是传输块。Secondary NameNode无Metalogger备用的主控服务器,在身后默默的拉取着主控服务器的日志,等待主控服务器牺牲后被扶正。HDFS核心功能功能说明Namespace HDFS支持传统的层次型文件组织,与大多数其他文件系统类似,用户可以创建目录,并在其间创建、删除、移动和重命名文件。Shell命令Hadoop包括一系列的类shell的命令,可直接和HDFS以及其他Hadoop支持的文件系统进行交互。数据复制每个文件的block大小和replication因子都是可配置的。Replication因子可以在文件创建的时候配置,以后也可以改变。HDFS中的文件是write-
6、one,并且 严格要求在任何时候只有一个writer。机架感知在大多数情况下,replication因子是3,HDFS的存放策略是将一个副本存放 在本地机架上的节点,一个副本放在同一机架上的另一个节点,最后一个副本影响到数据的可靠性和有效性。放在不同机架上的一个节点。机架的错误远远比节点的错误少。EditlogFSEditLog类是整个日志体系的核心,提供了一大堆方便的日志写入API,以及日志的恢复存储等功能。集群均衡如果某个DataNode节点上的空闲空间低于特定的临界点,那么就会启动一个计划自动地将数据从一个DataNode搬移到空闲的DataNode。空间的回收删除文件并没有立刻从 HD
7、FS 中删除,HDFS 将这个文件重命名,并转移到/trash目录,用于恢复,/trash可设置保存时间。读取文件流程1、使用HDFS Client,向远程的Namenode发起RPC请求;2、Namenode会视情况返回文件的部分或者全部block列表,对于每个block,Namenode都会返回有该block拷贝的datanode地址;3-4、HDFS Client 选取离客户端最接近的datanode来读取block;5、当读完列表的block后,如果文件读取还没有结束,客户端开发库会继续向Namenode获取下一批的block列表。6、读取完当前block的数据后,关闭与当前的data
8、node连接,并为读取下一个block寻找最佳的datanode;注:读取完一个block都会进行checksum验证,如果读取datanode时出现错误,客户端会通知Namenode,然后再从下一个拥有该block拷贝的datanode继续读。写入文件流程1.HDFS Client 向远程的Namenode发起RPC请求;2.Namenode会检查要创建的文件是否已经存在,创建者是否有权限进行操作,成功则会为文件创建一个记录,否则会让客户端抛出异常;3.当客户端开始写入文件的时候,开发库会将文件切分成多个packets,并在内部以data queue的形式管理这些packets,并向Name
9、node申请新的blocks,获取用来存储replicas的合适的datanodes列表,列表的大小根据在Namenode中对replication的设置而定。4.开始以pipeline(管道)的形式将packet写入所有的replicas中。开发库把packet以流的方式写入第一个datanode,该datanode把该packet存储之后,再将其传递给在此pipeline中的下一个datanode,直到最后一个datanode,这种写数据的方式呈流水线的形式。5.最后一个datanode成功存储之后会返回一个ack packet,在pipeline里传递至客户端,在客户端的开发库内部维护着
10、ack queue,成功收到datanode返回的ack packet后会从ack queue移除相应的packet。6.如果传输过程中,有某个datanode出现了故障,那么当前的pipeline会被关闭,出现故障的datanode会从当前的pipeline中移除,剩余的block会继续剩下的datanode中继续以pipeline的形式传输,同时Namenode会分配一个新的datanode,保持replicas设定的数量。HDFS不擅长的 多数据中心情况 低延迟数据访问需求(10ms)大量的小文件 多个数据写入者Hadoop MapReduceHadoop MapReduce 是什么?一
11、个在大型计算机集群上快速分发计算的编程模型 一个组织执行计算的操作框架 其中一个开源实现即Hadoop MapReduceMapReduce并行处理的基本过程Cite from Dean and Ghemawat(OSDI 2004)1.有一个待处理的大数据,被划分为大小相同的数据块(如64MB),及与此相应的用户作业程序2.系统中有一个负责调度的主节点(Master),以及数据Map和Reduce工作节点(Worker)MapReduce并行处理的基本过程Cite from Dean and Ghemawat(OSDI 2004)3.用户作业程序提交给主节点4.主节点为作业程序寻找和配备可用
展开阅读全文