大数据培训Module04Spark架构原理课件.pptx(纯ppt,可能不含音视频素材)
- 【下载声明】
1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
3. 本页资料《大数据培训Module04Spark架构原理课件.pptx(纯ppt,可能不含音视频素材)》由用户(晟晟文业)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 数据 培训 Module04Spark 架构 原理 课件
- 资源描述:
-
1、版权所有 2015 华为技术有限公司Spark架构原理前言版权所有 2015 华为技术有限公司第1页本章主要对Spark组件的应用场景,功能和架构以及在FusionInsight平台中的使用等进行简单介绍目标版权所有 2015 华为技术有限公司第2页学完本课程后,您将能够:理解Spark应用场景,了解Spark特点了解Spark计算能力及其技术架构了解Spark组件在FusionInsight 平台中的使用目录版权所有 2015 华为技术有限公司第3页1.Spark 应用场景应用场景Spark应用场景Spark特点2.Spark基本功能和技术架构3.Spark组件介绍Spark适用场景版权所有
2、 2015 华为技术有限公司第4页是什么Spark系统是分布式分布式批处理系批处理系统统和分析挖掘引擎分析挖掘引擎Spark 是AMP LAB贡献到Apache社区的开源项目,是AMP大数据栈的 基础组件做什么数据处理(Data Processing):可以用来快速处理数据,兼具容错性和可扩展性迭代计算(Iterative Computation):支持迭代计算,有效应对多步的数据处理逻辑数据挖掘(Data Mining):在海量数据基础上进行复杂的挖掘分析,可 支持各种数据挖掘和机器学习算法Spark适用场景大多数现有集群计算框架如Hadoop等基于从稳定存储(文件系统)到稳定存储的非循环数
3、据流-应对数据集重用型应用时低效,与 传统的MR任务的频繁读写磁盘数据相比,基于内存计算的Spark则 更适合应用与迭代计算,交互式分析等场景iter.1iter.2.HDFSreadHDFSwriteHDFSreadHDFSwriteInputInput.Data Sharing in MapReduceresult1result2result3.InputInput.query1Data Sharing in Spark版权所有 2015 华为技术有限公司第5页One-time processingDistributed memoryquery2HDFSreadquery3iter.1it
4、er.2query1query2query3Spark特点版权所有 2015 华为技术有限公司第6页轻:Spark核心代码有3万行。Scala语言的简洁和丰富表达力巧妙利用了Hadoop和Mesos的基础设施快:Spark对小数据集可达到亚秒级的延迟对大数据集的迭代机器学习即席查询、图计算等应用,Spark 版本比基于MapReduce、Hive和Pregel的实现快内存计算、数据本地性和传输优化、调度优化Spark特点版权所有 2015 华为技术有限公司第7页灵:Spark提供了不同层面的灵活性Scala语言trait动态混入策略(如可更换的集群调度器、序列化库)允许扩展新的数据算子、新的数
5、据源、新的language bindingsSpark支持内存计算、多迭代批量处理、即席查询、流处理和图 计算等多种范式巧:巧妙借力现有大数据组件Spark借Hadoop之势,与Hadoop无缝结合图计算借用Pregel和PowerGraph的API以及PowerGraph的点 分割思想本节总结版权所有 2015 华为技术有限公司第8页本章主要对Spark的产生背景和应用场景给予简单介绍,同时 介绍了spark的特点。目录版权所有 2015 华为技术有限公司第9页1.Spark应用场景2.Spark技术架构和基本技术架构和基本功能功能Spark系统架构Spark基本概念任务运行过程任务调度3.
6、Spark基本功能和技术架构Spark技术架构版权所有 2015 华为技术有限公司第10页Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群 中的含有Master进程的节点(ClusterManager),Slave是集群中含有 Worker进程的节点。Master作为整个集群的控制器,负责整个集群的正 常运行;Worker相当于是计算节点,接收主节点命令与进行状态汇报;Executor负责任务的执行,运行在Worker节点(在FI集群中,Master节点 即为Resourcemanager节点,Slave节点即为NodeManager节点);Spark的任
7、务流程:Client作为客户端提交应用,Master找到一个Worker 启动Driver(或者本地启动Driver),Driver向Master申请资源,之后将应用 转化为RDD Graph,再由DAGScheduler将RDD Graph转化为Stage后提交 给TaskScheduler,由TaskScheduler提交给Executor执行。Spark Application基本概念版权所有 2015 华为技术有限公司第11页Application:Spark用户程序,提交一次应用为一个App,一个App会启动一个SparkContext,也就是app的driver,驱动整个App的运
8、行Job:一个App可能包含多个Job,每个action算子对应一个Job;action算子有collect,count等。Stage:每个Job可能包含多层Stage,划分标记为shuffle过程;Stage按 照依赖关系依次执行。Task:具体执行任务的基本单位,被发到executor上执行。Spark基本概念版权所有 2015 华为技术有限公司第12页Cluster Manager:集群资源管理服务,通常包含主节点(主备)和多个 运行节点;支持运行模式有Standalone模式、on Mesos模式、on Yarn模 式(FI环境中使用Yarn作为spark任务调度的资源管理器)。Dri
9、ver:运行App的大脑,负责job的初始化,将job转换成task并提交执行DAGScheduler:是一个面向Stage层面的调度器,把Job分解成Stage,按照Stage提交TaskSet给TaskScheduler。TaskScheduler:提交Task给Executor运行,并管理执行结果。BlockManager:管理App运行周期的中间数据,比如存在内存、本地。Executor:是App运行在work 节点上的一个进程,该进程负责运行task,生命周期和App相同。Spark核心概念 RDD(ResilientDistributed Datasets)定义:只读的,可分区的分
10、布式数据集;数据集可全部或部分缓存 在内存中,在一个App多次计算间重用,RDD是Spark的核心。血统容错:根据血统(父子间依赖关系)重计算恢复丢失数据RDD操作:Transformation算子和Action算子。原 生 数 据 空 间存 储(e.g.H D F S)S c a l a 集 合 数 据 类 型S c a la 标 量 类 型输 入 算 子变 换 算 子缓 存 算 子行 动 算 子S p a r k R D D 空 间版权所有 2015 华为技术有限公司第13页R D D 父子依赖关父子依赖关系系:窄(Narrow)依赖和宽(Wide)依赖。窄依赖指父RDD的每 一个分区最多
展开阅读全文