Hadoop基础知识培训课件.ppt
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Hadoop基础知识培训课件.ppt》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoop 基础知识 培训 课件
- 资源描述:
-
1、企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一HadoopHadoop基础知识培训基础知识培训江西电信大数据支撑团江西电信大数据支撑团队队20142014年中国电信大数据技术与应用培训年中国电信大数据技术与应用培训企业信息化部把信息化打造成为中国电信企业核心竞争力之一H a d2企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一主要内容第一篇第一篇 Hadoop Hadoop综述综述 第二篇第二篇 HDFS HDFS 分布式文件系统分布式文件系统第三篇第三篇 MapReduc
2、e MapReduce 分布式计算框架分布式计算框架 第四篇第四篇 常用常用HadoopHadoop组件介绍组件介绍2 把信息化打造成为中国电信企业核心竞争力之一主要内容第一篇 3企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一第一篇Hadoop综述:什么是什么是HadoopHadoop:Hadoop Hadoop生态系统生态系统:Hadoop Hadoop的厂商的厂商:Hadoop Hadoop的部署的部署3 把信息化打造成为中国电信企业核心竞争力之一第一篇H a d o o企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞
3、争力之一把信息化打造成为中国电信企业核心竞争力之一Hadoop是什么?Hadoop是Apache基金会下的一个开源分布式计算平台,以分布式 文件系统(HDFSHDFS)和分布式计算框架(MapReduceMapReduce)为核心,为用户 提供了底层细节透明的分布式基础设施。yHDFS的高容错性、高伸缩性等优点,允许用户将Hadoop部署 在廉价的硬件上,构建分布式系统。yMapReduce分布式计算框架允许用户在不了解分布式底层细节 的情况下开发并行、分布的应用程序,利用大规模计算资源,解 决传统高性能单机无法解决的大数据处理问题Hadoop NutchLucene高性能全文 索引工具包高性
4、能搜索 引擎工具包版本演进对应Cloudera公司的CDH3u5对应Cloudera 公司的CDH4企业信息化部把信息化打造成为中国电信企业核心竞争力之一H a d企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一Hadoop的特点Hadoop运用于海量数据处理,主要有如下几个优势:方便Hadoop可以运行在一般商业机器(X86服务器)构成的大型集群 上弹性Hadoop通过增加集群节点,可以线性扩展以处理更大的数据集;同时在负载下降时,也可减少节点,以便高效使用资源。健壮Hadoop设计之初,将故障检测和自动恢复作为设计目标,可以从容处
5、理通用计算平台上出现的硬件失效情况。简单Hadoop允许用户快速编写出高效的并行分布式代码。企业信息化部把信息化打造成为中国电信企业核心竞争力之一H a d企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一HADOOPHADOOP生态系统生态系统y经过几年的快速发展,Hadoop现在已经发展成为包含多个相关项目的软件生包含多个相关项目的软件生 态系统态系统,成为大数据处理技术的事实标准,目前典型的Hadoop生态系统如下所 示:企业信息化部把信息化打造成为中国电信企业核心竞争力之一H A D企业信息化部企业信息化部把信息化打造成为中国电
6、信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一发展目发展目标标HADOOPHADOOP生态系统生态系统(1)实时应用场景实时应用场景(05s):Storm、S4等;(2)交互式场景交互式场景(5s1m):这种场景通常能要求必须支持SQL,则可行系统有:Cloudera Impala、Apache Drill、Shark等;(3)非交互式场景非交互式场景(1m1h):通常运行时间较长,处理数据量较大,对容错性和扩 展性要求较高,可行系统有:MapReduce、Hive、Pig、Stinger等;(4)批处理场景批处理场景(1h+):通常运行时间很长,处理数据量很大,对容错性和扩展
7、性要 求很高,可行系统有:MapReduce、Hive、Pig、Stinger等。企业信息化部把信息化打造成为中国电信企业核心竞争力之一 发展企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一HADOOPHADOOP厂商厂商Hadoop处于近时间的大数据革命的风暴眼,在Hadoop取得成功的同时也促使主 流市场对其稳定性、成熟的管理稳定性、成熟的管理,丰富的SQL环境等提出更高要求,于是Hadoop 厂商通过技术创新各显神通。企业信息化部把信息化打造成为中国电信企业核心竞争力之一H A D企业信息化部企业信息化部把信息化打造成为中国电信
8、企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一物理上的Hadoop集群企业信息化部把信息化打造成为中国电信企业核心竞争力之一物理上企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一逻辑部署的Hadoop集群企业信息化部把信息化打造成为中国电信企业核心竞争力之一逻辑部企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一简介:江西电信Hadoop批处理平 台共由6262台台PCPC服务器服务器构成,形成物理上独立的3 3个个RACKRACK,按照功能角色分组,主控 节点、
9、数据节点、Hive接入 节点、元数据节点、监控告 警节点和ETL节点。主控节点6台(2台Namenode、1台 Jobtracker、3台 Zookeeper)数据节点56台江西电信物理部署的Hadoop集群企业信息化部把信息化打造成为中国电信企业核心竞争力之一简介:12企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一第二篇HDFS一:一:HDFS HDFS简介简介二:二:HDFS HDFS 架构架构三:三:漫画漫画HDFSHDFS之读写机制之读写机制 四:四:漫画漫画HDFSHDFS之容错性之容错性 五:五:漫画漫画HDFSHDFS
10、之复制策略之复制策略1 2 把信息化打造成为中国电信企业核心竞争力之一第二篇H D F S企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一1 HDFS简介HDFS(HADOOP DISTRIBUTED FILE SYSTEM),是一个分布式文件系统。它是谷歌的GFS提出之后出现的一种用户级文件系统用户级文件系统。有一定的容错性,能提供高吞吐量的数据访问,适合大规模数据集上的应用。HDFS 提供了一个高度容错性和高吞吐量的海量数据存储解决方案企业信息化部把信息化打造成为中国电信企业核心竞争力之一1H企业信息化部企业信息化部把信息化打造成
11、为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一2 HDFS 2 HDFS 架构架构Block:大文件的存储会被分割为多个block进行存储。默认64MB,每一个blok会在多个datanode上存储多份副本,默认3份基基 本本 概概 念念Namenode:主要负责存储一些metadata信息,主要包括文件目录、block和文件对应关系,以及block和datanote的对应关系Datanode:负责存储数据,数据以block的形式存在企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造
12、成为中国电信企业核心竞争力之一3 HDFS 3 HDFS 之漫画读写之漫画读写企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一3 HDFS 3 HDFS 之漫画读写(续)之漫画读写(续)企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一3 HDFS 3 HDFS 之漫画读写之漫画读写企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 H企业信息化部企业信
13、息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一3 HDFS 3 HDFS 之漫画读写之漫画读写企业信息化部把信息化打造成为中国电信企业核心竞争力之一3 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一4 HDFS 4 HDFS 之漫画容错之漫画容错企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一4 HDFS 4 HDFS 之漫画容错之漫画容错企业信息化部把信息化打造成为中
14、国电信企业核心竞争力之一4 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一4 HDFS 4 HDFS 之漫画容错之漫画容错企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一4 HDFS 4 HDFS 之漫画容错之漫画容错企业信息化部把信息化打造成为中国电信企业核心竞争力之一4 H企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一5 HDFS 5 HDFS 之
15、漫画复制策略之漫画复制策略企业信息化部把信息化打造成为中国电信企业核心竞争力之一5 H24企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一第二篇 MapReduce一:一:MapReduceMapReduce基础基础二:二:MapReduceMapReduce优劣优劣 三:三:MapReduceMapReduce工作原理工作原理2 4 把信息化打造成为中国电信企业核心竞争力之一第二篇 Ma p企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一1 MapReduce基础MapRe
16、duce是一种编程模型,用于大规模数据集的并行计算。核心操作 由Map(映射)和Reduce(归约)组成,极大地方便了编程人员在不会分 布式并行编程的情况下,将自己的程序运行在分布式系统上典型的MapReduce过程可以细分为Input(Split)、Mappers、(Shuffle/Partition/Sort)、Reducers和Output等阶段企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 M企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一1 MapReduce示例1.输入端根据输入文本大小进行切片形成适合Map处理
17、的数据片2.分片后的数据申请Map资源,执行本地单词映射操作3.通过交换将map生成的结果按照单词进行归并重组4.重组后的结果,申请Reduce资源,进行单词的合并统计5.对Reduce的结果进行记录合并生成输出文件MapReduce过程示例 对输入的文 本 进 行 单 词 统计 对输入的文 本进行单词 统计企业信息化部把信息化打造成为中国电信企业核心竞争力之一1 M企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一2 MapReduce 执行过程从MapReduce在整个Hadoop框架 的位置可以看出作为Hadoop最成熟 的批处理
18、框架,MapReduce起到承 上启下的作用,一方面可以操作 HDFS中的数据,另一方面可以被封 装,提供Hive、Pig这样的上层组件 的调用企业信息化部把信息化打造成为中国电信企业核心竞争力之一2 M企业信息化部企业信息化部把信息化打造成为中国电信企业核心竞争力之一把信息化打造成为中国电信企业核心竞争力之一MapReduce优劣MapReduce的缺点 通过MapReduce这个分布式处理框架,不仅能用于处理大规模数据,而且能将很多繁琐的细节隐藏起来,比如,自动并行化、负载均衡和 灾备管理等,这样将极大地简化开发者工作 MapReduce的伸缩性非常好,也就是说,每增加一台服务器,其就 能
展开阅读全文