大数据复习课件.pptx
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据复习课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 复习 课件
- 资源描述:
-
1、大数据复习大数据复习演讲人2020-11-02Linux01常用命令top查看内存2014df-h查看磁盘2015netstart-tunlp|grep查看端口占用情况2016ll 2017子主题 2018 shell脚本LinuxHadoop02HadoopHDFSMapReduceYarn调度器HadoopHDFSHDFS会将完整的文件切分成一个个的block(默认128M),并将这些block分布到各个集群上03系统架构04分布式存储文件系统01读写流程02读取流程 1.client先向NameNode申请要读取的文件2.NN获取该文件所存储的DN位置,并返回给client3.clien
2、t在从指定的DN上拉取数据写入流程 1.向NN申请上传文件2.响应后,clinet会发送第一个block数据3.创建一个通道(parpline),用于数据传输,并有应答机制来保证数据是否成功传输完成4.返回ack后,才会继续传输,直到文件上传完成读写流程NNu存储元数据信息,管理读写操作系统架构 存储block 心跳机制 3s 会向NN汇报block的位置信息,安全机制DNSSNu加快NN的启动时间系统架构HadoopMapReduceSTEP4STEP3STEP2STEP1mapreduce是hadoop的计算框架执行流程MR的计算也是基于内存计算是非常快的,但涉及到多次数据落地到磁盘和网络
3、的IO传输,影响到其整体的运行效率,这也是MR最大的致命数据倾斜问题执行流程1.每个block对应split2.每一个split会分配一个maptask来处理5.溢写会对数据进行分区(按照key的hash值进行分区),排序(字典排序)3.maptask会将数据写入到KVbuffle4.KVBuffle会将数据优先写入到内存中,当达到阈值(80%)时开始溢写6.溢写的文件还会merga成大文件并分区执行流程1237.reducetask根据分区拉取merga文件(reduce的数量对应map的数量)8.reducetask会进行合并排序,并把文件传到reduce9.reduce会对这些文件归并,
4、并最终传输到HDFS上123在溢写下可选择combiner进行轻度的汇总,减轻reducetask要处理的数据量执行流程4.KVBuffle会将数据优先写入到内存中,当达到阈值(80%)时开始溢写HadoopYarn架构01执行流程02hadoop2.X升级后出现yarn,由于hadoop1.x的伸缩性差,并且namenode只有一个,容易出现单点故障03 ResourceManager 资源分配管理器 NodeManager架构执行流程4.容器运行期间会向RM汇报心跳,当任务执行完成后,application会向RM注销释放容器资源3.NM接收到app时,会初始化容器,并对这个app启动对应
5、的APPMaster实例2.RM会将app拆分成多个task并根据资源调度器来分配NM1.client会向RM申请application资源,RM返回资源路径,提交jobCBADHadoop调度器FIFO容量调度器公平调度器单队列,先进先出FIFO容量调度器企业中推荐多队列,也是先进先出,每个队列在同一阶段只有一个任务执行,队列数是队列的并行度数多队列,每个队列内部按照缺额大小进行分配资源启动任务公平调度器Hive03Hivehive可以将sql语句解析成MR程序的分布式计算工具架构操作存储格式Hive架构元数据解析器存储层 mysql元数据 hdfs存储层Hive操作ADDL(表操作)C外部
6、表和内部表BDML(CRUD操作)Dhive优化DDL(表操作)create external table if not exists tablename(colname datatype comment。)comment.partitioned by clustered by sorted by row format stored as partitioned by(name String)创建表数据类型分区表select from u大致与sql语句相同u分区排序查询常用查询函数字段排序rank row_number 01 case when02lateral view explore列转
7、行04nvl(s1,-1)空值赋值处理03 窗口函数05DML(CRUD操作)UDF自定义函数实现UDF-实现evaluate方法-add jar-create functionload data (local本地)inpath 路径 overwrite into table 表名DML(CRUD操作)加载数据外部表和内部表删除外部表,只会删除元数据信息,并不会将真实数据删除(存储在HDFS上)关键字External修饰外部表删除内部表,会将元数据和真实数据全部删除内部表alter table 表名 set tblproperties(EXTERNAL=TRUE);可以互相转换表优化小表在前,
8、大表在后小表 join 大表01解决大表 join 大表02 开启预聚合04点击此处添加正文内容map join03 动态分区05hive优化sql语句调优CBAgroup by代替distinct列裁剪sort by代替order by三种方式uHARuSequenceFileuCombiner小文件合并hive优化压缩O R C,可 以 加 快 m a p 端 的 数 据 网 络 I O 到 r e d u c e,需 自 己 安 装,压 缩 后 可 切 分b z i pg z i ps n a p p y合理设置map数hive优化增加减少JVM重用hive优化Hive存储格式textF
9、ile01RCFile02ORCFile03SEQUENCEFILE04默认格式textFile推荐,列式存储RCFile推荐,RCFile改良版ORCFileHbase04Hbasehabse是高性能,高可靠,基于列存储的非关系型数据库架构rowkey设计原则热点问题hbase读写流程Hbase优化 过滤器HbaseHbase架构HMasterHRegionServerZK 负责管理RegionServer和读写操作HMaster存储数据,执行由HMaster分配的RegionHRegionServer预写日志,记录RegionServer的一系列操作,以防宕机丢失数据HRegionServ
10、erHlogStore0102 列族内存写入,达到阈值(128M)开始溢写磁盘,生成StoreFilememstore03当单个storeFile超过阈值会分成2个相等的sorefilestorFile表信息,一个RegionServer可以有多个region,一个region只能有一个regionServerHRegionServerRegion 存储元数据信息,监控和调度HMaster 三级寻址 zk记录root表信息,从root表在找到meat表信息,meat表信息记录真实数据ZKHbaserowkey设计原则长度原则01散列原则02唯一性原则03 不超过64kb长度原则避免相同key数
展开阅读全文