Hadoo大数据平台部署与应用PPT课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《Hadoo大数据平台部署与应用PPT课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- Hadoo 数据 平台 部署 应用 PPT 课件
- 资源描述:
-
1、Hadoop大数据平台部署与应用主讲:吕震宇主要内容主要内容l1 1、Hadoop Hadoop 生态系统生态系统概述以及版本概述以及版本演化演化l2 2、Hadoop Hadoop 发行版介绍(开源版发行版介绍(开源版)l3 3、Hadoop Hadoop 安装安装l4 4、HDFS HDFS 上机上机操作操作l5 5、HBASE HBASE 上机操作上机操作l6 6、YARN YARN 上机上机操作操作l7 7、MapReduceMapReduce 上机操作上机操作l8 8、SPARK SPARK 概述概述1 1、Hadoop Hadoop 生态系统生态系统概述以及版本演化概述以及版本演化
2、Hadoop 1.0 Hadoop 1.0 与与 Hadoop 2.0Hadoop 2.0分布式存储系统 HDFSHDFS(Hadoop Distributed File System)提供了高可靠性、高扩展性和高吞吐率的数据存储服务分布式计算框架 MapReduceMapReduce具有易于编程、高容错性和高扩展性等优点资源管理系统 YARNYARN(Yet Another Resource Negotiator)负责集群资源的统一管理和调度HADOOP 1.0HADOOP 1.0HADOOP 2.0HADOOP 2.0HDFSHDFS(redundant, reliable storage
3、)MapReduceMapReduce(cluster resource management & data processing)MapReduceMapReduce(data processing)OthersOthers(data processing)YARNYARN(cluster resource management)HDFSHDFS(redundant, reliable storage)HDFS HDFS 架构架构DataNodeDataNodeDataNodeDataNodeDataNodeLocal DiskNameNodeNameNodeSecondarySeconda
4、ryNameNodeNameNodeHDFSHDFSClientClientLocal DiskLocal DiskLocal DiskLocal Disk心跳、均衡负载、复制等HDFS HDFS 架构架构lActive Active NamenodeNamenodel主 Master(只有一个),管理 HDFS 的名称空间,管理数据块映射信息l配置副本策略;处理客户端读写请求lSecondary Secondary NameNodeNameNodelNameNode 的热备;定期合并 fsimage 和 fsedits,推送给 NameNode;l当 Active NameNode 出现故障
5、时,快速切换为新的 Active NameNode。lDatanodeDatanodelSlave(有多个);存储实际的数据块;执行数据块读 / 写lClientClientl与 NameNode 交互,获取文件位置信息;l与 DataNode 交互,读取或者写入数据;管理 HDFS、访问 HDFS。MapReduceMapReducel源自源自于于 Google Google 的的 MapReduceMapReduce 论文论文l发表于 2004 年 12 月lHadoop MapReduce 是 Google MapReduce 克隆版lMapReduceMapReduce特点特点l良好的
6、扩展性l高容错性l适合 PB 级以上海量数据的离线处理词频统计的词频统计的 MapReduceMapReduce 处理过程处理过程Deer Bear RiverCar Car RiverDeer Car BearDeer,1Bear,1River,1Car,1Car,1River,1Deer ,1Car,1Bear,1Deer Bear RiverCar Car RiverDeer Car BearBear,1Bear,1Car,1Car,1Car,1Deer ,1Deer ,1River,1River,1Bear,2Car,3Deer ,2River,2Bear,2Car,3Deer ,2R
7、iver,2InputSplittingMappingReducingShufflingFinal resultHadoop Hadoop 构成:构成:YARNYARN(资源管理系统)(资源管理系统)Application Run Natively Application Run Natively ININ Hadoop HadoopBATCHBATCH(MapReduce)YARN YARN (Cluster Resource Management)HDFS2 HDFS2 (Redundant, Reliable Storage)InterActiveInterActive(Tez)ONLI
8、NEONLINE(HBase)STREAMINGSTREAMING (Storm,S4,)GRAPHGRAPH (Giraph)IN-MEMORYIN-MEMORY (Spark)HPC MPIHPC MPI (OpenMPI)OTHEROTHER (Search)YARN是什么Hadoop 2.0 新增系统负责集群的资源管理和调度使得多种计算框架可以运行在一个集群中YARN的特点良好的扩展性、高可用性对多种类型的应用程序进行统一管理和调度自带多种多用户调度器,适合共享集群环境Hadoop Hadoop 生态系统:生态系统:1.0 1.0 时代时代Flume Flume (日志收集)Zooke
9、eperZookeeper (分布式协调服务)Mahout Mahout (数据挖掘库)Hive Hive (数据仓库)OozieOozie (作业流调度系统)MapReduceMapReduce (分布式计算框架)AmbariAmbari (安装部署工具)HDFS HDFS (分布式存储系统)Pig Pig (工作流引擎)HbaseHbase (分布式数据库)SqoopSqoop (数据库TEL工具)HiveHive(基于(基于MRMR的数据仓库)的数据仓库)l由由FacebookFacebook开源,最初开源,最初用于海量结构化日志用于海量结构化日志数据数据统计;统计;lETL(Extra
10、ction-Transformation-Loading)工具l构建构建在在HadoopHadoop之上的数据之上的数据仓库仓库l数据计算使用 MapReduce,数据存储使用HDFSlHive Hive 定义了一种类定义了一种类 SQL SQL 查询语言查询语言HQLHQLl类似SQL,但不完全相同l通常通常用于进行离线数据处理(用于进行离线数据处理(采用采用 MapReduceMapReduce)l可认为是一个 HQLMR 的语言翻译器PigPig(作业流引擎)(作业流引擎)l由由 yahoo!yahoo! 开源开源l是提供一种基于 MapReduce 的 ad-hoc 数据分析工具l构建
11、在Hadoop之上的数据仓库l定义定义了一种了一种数据流语言数据流语言 Pig Pig LatinLatinl通常用于进行离线分析WordCountWordCount:MapReduceMapReduce 实现实现public static class public static class TokenizerMapperTokenizerMapper extends MapperObject, Text, Text, extends Mapper private final static private final static IntWritableIntWritable one = ne
12、w one = new IntWritableIntWritable(1);(1); private Text word = new Text(); private Text word = new Text(); public void map(Object key, Text value, Context public void map(Object key, Text value, Context contextcontext ) throws ) throws IOExceptionIOException, , InterruptedExceptionInterruptedExcepti
13、on StringTokenizerStringTokenizer itritr = new = new StringTokenizerStringTokenizer( (value.toStringvalue.toString();(); while ( while (itr.hasMoreTokensitr.hasMoreTokens() () word.setword.set( (itr.nextTokenitr.nextToken();(); context.writecontext.write(word, one);(word, one); public static class p
14、ublic static class IntSumReducerIntSumReducer extends Reducer extends Reducer private private IntWritableIntWritable result = new result = new IntWritableIntWritable();(); public void reduce(Text key, public void reduce(Text key, IterableIterable values values, Context , Context contextcontext ) thr
15、ows ) throws IOExceptionIOException, , InterruptedExceptionInterruptedException intint sum = 0; sum = 0; for ( for (IntWritableIntWritable valval : values) : values) sum += sum += val.getval.get();(); result.setresult.set(sum);(sum); context.writecontext.write(key, result);(key, result); WordCountWo
16、rdCount:MapReduceMapReduce 实现实现public static void main(String public static void main(String argsargs) throws Exception ) throws Exception Configuration Configuration confconf = new Configuration(); = new Configuration(); String String otherArgsotherArgs = new = new GenericOptionsParserGenericOption
17、sParser( (confconf, , argsargs).).getRemainingArgsgetRemainingArgs();(); if ( if (otherArgs.lengthotherArgs.length != 2) != 2) System.err.printlnSystem.err.println(Usage: (Usage: wordcountwordcount ); ); System.exitSystem.exit(2);(2); Job Job jobjob = new Job( = new Job(confconf, word count);, word
18、count); job.setJarByClassjob.setJarByClass( (WordCount.classWordCount.class);); job.setMapperClassjob.setMapperClass( (TokenizerMapper.classTokenizerMapper.class);); job.setCombinerClassjob.setCombinerClass( (IntSumReducer.classIntSumReducer.class);); job.setReducerClassjob.setReducerClass( (IntSumR
19、educer.classIntSumReducer.class);); job.setOutputKeyClassjob.setOutputKeyClass( (Text.classText.class);); job.setOutputValueClassjob.setOutputValueClass( (IntWritable.classIntWritable.class);); FileInputFormat.addInputPathFileInputFormat.addInputPath(job, new Path(job, new Path(otherArgsotherArgs0);
20、0); FileOutputFormat.setOutputPathFileOutputFormat.setOutputPath(job, new Path(job, new Path(otherArgsotherArgs1);1); System.exitSystem.exit( (job.waitForCompletionjob.waitForCompletion(true) ? 0 : 1);(true) ? 0 : 1); WordCountWordCount:Hive Hive 实现实现SELECTSELECT word, COUNT( word, COUNT(* *) ) FROM
21、FROM doc doc LATERAL LATERAL VIEW VIEW explode(split(text, ) explode(split(text, ) lTablelTable as word as word GROUP GROUP BY BY word;word;WordCountWordCount:Pig Pig 实现实现- 加载数据input = load /input/data as (input = load /input/data as (line:chararrayline:chararray););- 将字符串分割成单词words = words = foreac
22、hforeach input generate input generateflatten(TOKENIZE(line) as word;flatten(TOKENIZE(line) as word;- 对单词进行分组grpdgrpd = group words by word; = group words by word;- 统计每组中单词数量cntdcntd = = foreachforeach grpdgrpd generate generate group, COUNT(wordsgroup, COUNT(words););- 打印结果dump dump cntdcntd; ;Maho
23、utMahout(数据挖掘库)(数据挖掘库)lMahoutMahoutl基于Hadoop的机器学习和数据挖掘的分布式计算框架l实现实现了三大类算法了三大类算法l推荐(Recommendation)l聚类(Clustering)l分类(Classification)HbaseHbase(分布式数据库)(分布式数据库)l源自源自 Google Google 的的 BigtableBigtable 论文论文l发表于 2006 年 11 月lHbase 是 Google Bigtable 克隆版Hadoop Hadoop 生态系统:生态系统:2.0 2.0 时代时代Flume Flume (日志收集)
24、ZookeeperZookeeper (分布式协调服务)TezTez (DAG计算)SharkSharkOozieOozie (作业流调度系统)MapReduceMapReduce (分布式计算框架)AmbariAmbari (安装部署工具)HDFS HDFS (分布式存储系统)HbaseHbase (分布式数据库)SqoopSqoop (数据库TEL工具)HiveHivePigPigYARN YARN (分布式计算框架)Spark Spark (内存计算)Hive2Hive2Pig2Pig22 2、Hadoop Hadoop 发行版介绍(开源版)发行版介绍(开源版)Hadoop Hadoop
25、 发行版介绍(开源版)发行版介绍(开源版)lApache HadoopApache Hadoopl推荐使用最新的2.x.x版本,比如2.4.0l下载地址:http:/hadoop.apache.org/releases.htmllSVN:http:/svn.apache.org/repos/asf/hadoop/common/branches/lCDHCDH(Cloudera Distributed Hadoop)l推荐使用最新的 CDH5 版本,比如 CDH 5.0.0l下载地址: http:/ Data Platform)l推荐使用最新的 HDP 2.x 版本,比如 HDP 2.1 版本l
展开阅读全文