书签 分享 收藏 举报 版权申诉 / 123
上传文档赚钱

类型大数据复习课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:3583852
  • 上传时间:2022-09-21
  • 格式:PPTX
  • 页数:123
  • 大小:2.78MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《大数据复习课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    数据 复习 课件
    资源描述:

    1、大数据复习大数据复习演讲人2020-11-02Linux01常用命令top查看内存2014df-h查看磁盘2015netstart-tunlp|grep查看端口占用情况2016ll 2017子主题 2018 shell脚本LinuxHadoop02HadoopHDFSMapReduceYarn调度器HadoopHDFSHDFS会将完整的文件切分成一个个的block(默认128M),并将这些block分布到各个集群上03系统架构04分布式存储文件系统01读写流程02读取流程 1.client先向NameNode申请要读取的文件2.NN获取该文件所存储的DN位置,并返回给client3.clien

    2、t在从指定的DN上拉取数据写入流程 1.向NN申请上传文件2.响应后,clinet会发送第一个block数据3.创建一个通道(parpline),用于数据传输,并有应答机制来保证数据是否成功传输完成4.返回ack后,才会继续传输,直到文件上传完成读写流程NNu存储元数据信息,管理读写操作系统架构 存储block 心跳机制 3s 会向NN汇报block的位置信息,安全机制DNSSNu加快NN的启动时间系统架构HadoopMapReduceSTEP4STEP3STEP2STEP1mapreduce是hadoop的计算框架执行流程MR的计算也是基于内存计算是非常快的,但涉及到多次数据落地到磁盘和网络

    3、的IO传输,影响到其整体的运行效率,这也是MR最大的致命数据倾斜问题执行流程1.每个block对应split2.每一个split会分配一个maptask来处理5.溢写会对数据进行分区(按照key的hash值进行分区),排序(字典排序)3.maptask会将数据写入到KVbuffle4.KVBuffle会将数据优先写入到内存中,当达到阈值(80%)时开始溢写6.溢写的文件还会merga成大文件并分区执行流程1237.reducetask根据分区拉取merga文件(reduce的数量对应map的数量)8.reducetask会进行合并排序,并把文件传到reduce9.reduce会对这些文件归并,

    4、并最终传输到HDFS上123在溢写下可选择combiner进行轻度的汇总,减轻reducetask要处理的数据量执行流程4.KVBuffle会将数据优先写入到内存中,当达到阈值(80%)时开始溢写HadoopYarn架构01执行流程02hadoop2.X升级后出现yarn,由于hadoop1.x的伸缩性差,并且namenode只有一个,容易出现单点故障03 ResourceManager 资源分配管理器 NodeManager架构执行流程4.容器运行期间会向RM汇报心跳,当任务执行完成后,application会向RM注销释放容器资源3.NM接收到app时,会初始化容器,并对这个app启动对应

    5、的APPMaster实例2.RM会将app拆分成多个task并根据资源调度器来分配NM1.client会向RM申请application资源,RM返回资源路径,提交jobCBADHadoop调度器FIFO容量调度器公平调度器单队列,先进先出FIFO容量调度器企业中推荐多队列,也是先进先出,每个队列在同一阶段只有一个任务执行,队列数是队列的并行度数多队列,每个队列内部按照缺额大小进行分配资源启动任务公平调度器Hive03Hivehive可以将sql语句解析成MR程序的分布式计算工具架构操作存储格式Hive架构元数据解析器存储层 mysql元数据 hdfs存储层Hive操作ADDL(表操作)C外部

    6、表和内部表BDML(CRUD操作)Dhive优化DDL(表操作)create external table if not exists tablename(colname datatype comment。)comment.partitioned by clustered by sorted by row format stored as partitioned by(name String)创建表数据类型分区表select from u大致与sql语句相同u分区排序查询常用查询函数字段排序rank row_number 01 case when02lateral view explore列转

    7、行04nvl(s1,-1)空值赋值处理03 窗口函数05DML(CRUD操作)UDF自定义函数实现UDF-实现evaluate方法-add jar-create functionload data (local本地)inpath 路径 overwrite into table 表名DML(CRUD操作)加载数据外部表和内部表删除外部表,只会删除元数据信息,并不会将真实数据删除(存储在HDFS上)关键字External修饰外部表删除内部表,会将元数据和真实数据全部删除内部表alter table 表名 set tblproperties(EXTERNAL=TRUE);可以互相转换表优化小表在前,

    8、大表在后小表 join 大表01解决大表 join 大表02 开启预聚合04点击此处添加正文内容map join03 动态分区05hive优化sql语句调优CBAgroup by代替distinct列裁剪sort by代替order by三种方式uHARuSequenceFileuCombiner小文件合并hive优化压缩O R C,可 以 加 快 m a p 端 的 数 据 网 络 I O 到 r e d u c e,需 自 己 安 装,压 缩 后 可 切 分b z i pg z i ps n a p p y合理设置map数hive优化增加减少JVM重用hive优化Hive存储格式textF

    9、ile01RCFile02ORCFile03SEQUENCEFILE04默认格式textFile推荐,列式存储RCFile推荐,RCFile改良版ORCFileHbase04Hbasehabse是高性能,高可靠,基于列存储的非关系型数据库架构rowkey设计原则热点问题hbase读写流程Hbase优化 过滤器HbaseHbase架构HMasterHRegionServerZK 负责管理RegionServer和读写操作HMaster存储数据,执行由HMaster分配的RegionHRegionServer预写日志,记录RegionServer的一系列操作,以防宕机丢失数据HRegionServ

    10、erHlogStore0102 列族内存写入,达到阈值(128M)开始溢写磁盘,生成StoreFilememstore03当单个storeFile超过阈值会分成2个相等的sorefilestorFile表信息,一个RegionServer可以有多个region,一个region只能有一个regionServerHRegionServerRegion 存储元数据信息,监控和调度HMaster 三级寻址 zk记录root表信息,从root表在找到meat表信息,meat表信息记录真实数据ZKHbaserowkey设计原则长度原则01散列原则02唯一性原则03 不超过64kb长度原则避免相同key数

    11、据走单个regionserver处理,出现数据热点问题散列原则hbase的rowkey是按照字典排序,利用这点,可以顺序存储唯一性原则Hbase热点问题单个regionserver处理过多的数据,从而影响到其他regionserver的运行,甚至宕机解决办法0201解决办法哈希字符串反转加盐Hbasehbase读写流程读流程写流程读流程2131.先从zk获取到regionserver位置信息2.regionserver会优先找catch文件查看需要读取文件是否存在,如存在直接返回读取3.没有,则去region找到store,先读取memstore数据44.如果没有在去读取storeFile数据

    12、写流程 1.获取到regionserver位置信息,对应的region表信息 2.先去Hlog写入日志,只有Hlog写入成功才会继续,在去region写入数据,region会优先去memstore写入 3.当memstore写入数据达到阈值会将数据溢写到磁盘,并生成storefile当storefile太小,会进行合并,生成大的storefile文件4.storefile的数据量也达到阈值也会划分成两个相等的storefileHbaseHbase优化1子主题2子主题过滤器u布隆过滤器HbaseFlume05Flumeflume可以将实时生成的日志信息流入到HDFS上的日志收集系统子主题过滤器架

    13、构操作Flume采集数据会丢失吗?(防止数据丢失的机制)LOGOhttps:/Flume架构ABCsourceChannelsinksourceu一般而言,最广泛地还是日志文件架构缓冲区umemory channelufile channelChannel架构sinkABhdfskafkaFlume操作hdfs sinkkafka sinkflme-ng agent-conf path-name a1-conf-file 具体的配置路径 编写相应的配置文件编写相应的配置文件操作操作 flme-ng agent-conf path-name a1-conf-file 具体的配置路径 01a1.c

    14、hannels=c1 a1.sinks=k1 a1.sinks.k1.type=hdfs a1.sinks.k1.channel=c1 a1.sinks.k1.hdfs.path=/flume/events/%y-%m-%d/%H%M/%S a1.sinks.k1.hdfs.filePrefix=events-a1.sinks.k1.hdfs.round=true a1.sinks.k1.hdfs.roundValue=10 a1.sinks.k1.hdfs.roundUnit=minutehdfs sink02kafka sink a1.sinks.k1.type=org.apache.fl

    15、ume.sink.kafka.KafkaSink a1.sinks.k1.topic=mytopic a1.sinks.k1.brokerList=localhost:9092 a1.sinks.k1.requiredAcks=1 a1.sinks.k1.batchSize=20 a1.sinks.k1.channel=c1操作FlumeFlume采集数据会丢失吗?(防止数据丢失的机制)不会,channel的数据是存储在file中,数据传输自身有事务。01put02take03Flume采集数据会丢失吗?(防止数据丢失的机制)不会,channel的数据是存储在file中,数据传输自身有事务。t

    16、akeputSqoop06Sqoop操作可以将HDFS的数据导入到muysql上,也可以从mysql导入到hdfs的数据迁移工具操作Sqoop导入(import)导出(export)一般而言都是写成脚本的方式运行导入(import)usqoop import -connect jdbc:mysql:/node01:3306/sqoop -username root -password 123456 -table 表名 -target-dir/user/sqoop -num-mapper 1 -fields-terminated-by t 操作导出(export)usqoop export -c

    17、onnect jdbc:mysql:/node01:3306/sqoop -username root -password 123456 -table 表名 -export-dir/user/sqoop -num-mapper 1 -input-fields-terminated-by t 操作export -connect jdbc:mysql:/node01:3306/sqoop -username root -password 123456 脚本文件不需要刚开始的sqoop命令sqoop-options-file 文件一般而言都是写成脚本的方式运行Redis07基于内存存储的k,v格式的

    18、非关系型数据库Redis数据类型Redislisthashmapsetzsetredis支持一主多从的模式架构,主节点支持读写操作,从节点只支持读操作Redis主从复制哨兵机制sentinel.conf 监控哨兵不断的检查主从服务器的状态防止主从复制带来的单节点故障,如主节点宕机就会使redis丢失写入功能,只能读 当主节点宕机,会从从节点选举成为新的主节点 redis集群uHARedis1.AOF2.基于内存存储日志,容易丢失,存储的是操作命令,数据恢复起来慢,但启动速度快3.RDB4.基于磁盘存储日志,不容易丢失,存储的是数据本身,数据恢复起来快,但启动速度慢持久化方式Es08Es分布式搜

    19、索引擎A倒排索引B数据存储结构C基本命令D分片和备份E架构FJavaAPIEsZK09ZK分布式协调管理工具,多用于大数据管理或协调各个组件的工作架构功能操作ZK架构leaderfollowerleader 投票的发起和决议,对外更新zk的状态follower 接收客户端的请求和返回相应的结果,参加leader的选举投票(票数大于一半就会通过)架构ZK功能消息同步1负载均衡2分布式集群管理3服务器动态上下线4功能消息同步负载均衡服务器动态上下线分布式集群管理ZK操作AzkServer.sh startCzkServer.sh statusBzkServer.sh stopDzkCli.shzk

    20、Server.sh startu启动zk操作zkServer.sh stopu停止zk操作zkServer.sh statusu查看zk的状态操作zkCli.sh 启动zk客户端0102查看zk下存储的信息ls/get0304 createKafka10Kafkakafka是高性能,高吞吐,低延迟的分布式消息队列消息持久化kafkaAPI架构消费者组ISR机制Kafka01高吞吐本质02kafka数据重复和丢失Kafka架构produce01consumer03Block02执行流程04produceu生产者架构 topic partition follower replication 每个block可有多个topicBlockconsumer架构执行流程架构Strom11 StromSpark12 SparkFlink13 Flink机器学习机器学习14机器学习Kylin15 Kylin感谢聆听感谢聆听

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:大数据复习课件.pptx
    链接地址:https://www.163wenku.com/p-3583852.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库