书签 分享 收藏 举报 版权申诉 / 34
上传文档赚钱

类型资源混部技术架构介绍课件.pptx

  • 上传人(卖家):三亚风情
  • 文档编号:2958676
  • 上传时间:2022-06-15
  • 格式:PPTX
  • 页数:34
  • 大小:2.24MB
  • 【下载声明】
    1. 本站全部试题类文档,若标题没写含答案,则无答案;标题注明含答案的文档,主观题也可能无答案。请谨慎下单,一旦售出,不予退换。
    2. 本站全部PPT文档均不含视频和音频,PPT中出现的音频或视频标识(或文字)仅表示流程,实际无音频或视频文件。请谨慎下单,一旦售出,不予退换。
    3. 本页资料《资源混部技术架构介绍课件.pptx》由用户(三亚风情)主动上传,其收益全归该用户。163文库仅提供信息存储空间,仅对该用户上传内容的表现方式做保护处理,对上传内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知163文库(点击联系客服),我们立即给予删除!
    4. 请根据预览情况,自愿下载本文。本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
    5. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007及以上版本和PDF阅读器,压缩文件请下载最新的WinRAR软件解压。
    配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    资源 技术 架构 介绍 课件
    资源描述:

    1、阿里资源混部技术架构介绍混部简介混部的历程混部的架构调度与内核未来的展望为什么要混部各种数据报告都显示目前数据中 心的机器利用率平均在10%左右 容灾、峰值,机器数冗余大另一方面,大数据的普及,离线分析作业越来越多,成本极高如何解决?什么是混部在线服务离线计算实时计算把集群混合起来,将不同类型的任务调度到相同 的物理资源上,通过调度,资源隔离等控制手段, 保障SLO,极大降低成本,我们称这样的技术为混部(Co-loaction)在线离线的混部在线优 先级离线优 先级低低优先 级牺牲就像是石块,且延时敏感, 利用率不高,不可重跑就像水和沙子,且延时不 敏感,利用率高,可重跑当在线不忙时,离线就抢

    2、 占,反之则返还,甚至反哺是可以进行混部,并带来 成本收益的两个前提条件优先级 互补性混部的使用场景30%成本下降日常可以提升利用率、 大幅度降低成本10%交易流量大促时可以通过挤占 离线的方式来抗住峰值带来的压力混部简介混部的历程混部的架构调度与内核未来的展望混合云双11每年都在创造奇迹,但是 高峰却只有1小时左右。一方面开始使用阿里云的公有 云资源的弹性能力降低成本。另一方面,我们也开始研究混部的相关 技术。业务层在线服务运维在线服务调度计算任务调度Cloud open API计算产品运维云服务运维T4NC保有云在线服务与计算任务ECS公有云当保有云不足时32.5万笔/秒Google与Bo

    3、rg2015年,Google发表了Borg论 文,其中就提到了在线服务与计算 任务之间的混合运行,也就是我们 说的混部技术。Borg论文中描述了Google由于采 用了这项技术,为Google整体节省 了20%-30%的机器规模混部的四年历程2015201420162017启动研究启动研究线上验证线上验证200大规模使大规模使用用20%线下测试线下测试日常混部的效果混部:40%非混部:10%30%干扰性的效果影响5%以内混部简介混部的历程混部的架构调度与内核未来的展望基于容器的Sigma兼容Kubernetes API, 和开源 社区共建采用阿里Pouch容器(兼容OCI 标准)通过阿里多年大

    4、规模及 双11验证基于进程的Fuxi面向海量数据处理和大规模计 算类型的复杂应用提供了一个数据驱动的多级流 水线并行计算框架,在表述能 力上兼容MapReduce,Map-Reduce-Merge,Cascading, FlumeJava 等多种编程模式。高可扩展性,支持十万以上级 的并行任务调度,能根据数据 分布优化网络开销。自动检测故障和系统热点,重试失败任务,保证作业稳定可靠运行完 成。CLTRPC_wrapperFuxiMasterFuxi AgentAPPMasterCluster NodeFuxi AgentAPPWorkerCluster NodeFuxi AgentAPPWor

    5、kerCluster NodeAPPWorkerFuxi AgentAPPMasterCluster NodeAPPWorkerAPPWorker混部的整体架构通过sigma和fuxi完成 在线离线的各自调度通过零层相互协调资源 配比通过调度和内核解决资 源竞争隔离问题SigmaAgentRunCRunVFollow the OCI standardsNon-prod JobsJOBJOBProd JobsPouchRunLXC vLinuxLevel0- AgentFuxiAgentLevel0-DataFuxiMasterSigmaMasterLevel0- ControllerPouch

    6、Pouch零层的协调机制sigmaMasterLevel0 ManagerFuxiMasterSigma RMLevel0 RMFuxi RMLevel0AgentsigmaAgentFuixAgent容 器容 器容 器ta skta skta sk混部集群管理各调度租户资源配比日常压测大促策略异常检测与处理混部简介混部的历程混部的架构调度与内核未来的展望混部中的两大核心调度通过资源画像,在 竞争之前,尽量减 少资源竞争的可能 性内核在发生资源竞争 的极端情况时, 优先保障高优先 级任务主动,延时高被动,延时低资源竞争调度:平时的分时复用对集群进行资源使 用的画像在线凌晨1-6点为低 峰,离线

    7、是高峰通过在线服务资源 画像智能挑选空闲 容器进行offline处 理离线扩水位离线扩水位 在线缩水位在线缩水位在线扩水位在线扩水位 离线缩水位离线缩水位离线高峰可拉升离线高峰可拉升 至至60%以上以上调度:大促时的分时复用1时完成快速线切换日 常 态 促 态在线服务计算任务混部机器独占机器调度:压测时的无损有损降级5分钟内完成无损降级在线服务CPUSET模式,NC平均利 用率不高离线70%的任务小于3分钟分钟级快速恢复秒级的快速kill预案离线运行5min离线降级在线压测30min5min离恢复离线运行1小时5min离线降级常 态 在 线 压 测调度:离线作业选取Task2Task3Task

    8、4Task5Task1规则过滤资源画像Task4Task5Level0 Data对作业进行资源 使用的画像通过0层来获得 剩余的资源能力挑选符合条件的 作业调度:弹性内存在线加入内存共享分组基于在线的实际内存使用,动态调整离线水位当在线突增时,自动降级(Kill)解决离线内存快速释放问题整体OOM时,优先杀离线优先级低的任务buffer在线 实际离线 最小共享组离线 可占调度:存储计算分离SSDSSDSSDSATASATASATA大数据存储计算节点计算节点计算节点计算节点计算节点计算节点通用块存储 日 志 中 心统一计算调度统一存储调度存储与计算混杂在一起, 对于调度复杂度是乘的 关系网络能力

    9、的提升,让远 程访问变得像本地一样 快内核隔离:CPUCPU抢占按照CGroup分配优先级(cpu.shares)高优先级任务可以抢占低优先级任务 的时间片规避HT(noise clean)避免离线任务调度到在线任务相邻的HT上保证已经运行的离线任务在在线任务于相邻HT上唤醒后迁走内核隔离:CPUL3 Cache隔离CAT:BDW CPU的特性;内存带宽隔离Memory Bandwidth Monitoring ;Cfs bandwidth control 调节离线任务运行时间片长度5102530Response Time1520DRAM Write BW (GB/s)Response Tim

    10、e against different DRAM BW内核隔离:内存内存回收隔离按照CGroup分配优先级增加组内回收机制,避免全局内存回收干扰在线任务按优先级确定内存回收的权重,在线任务的内存被回收的更少OOM优先级整机OOM时,优先杀低优先级任务内核隔离:网络带宽隔离隔离本机带宽(TC)。Pouch容器间的带宽隔离带宽共享(金、银、铜)在离线间可以存在共享带宽进程间按照优先级可以抢占带宽内核隔离:IO文件级别的IO带宽隔离(上限)新增blkio的控制接口限制IOPS,BPS文件级别的保低带宽(下限)允许应用超出保底带宽后使用富余的空闲带宽;Metadata throttle限制特定操作的m

    11、etadata操作,例如一次性删除大量小文件。混部简介混部的历程混部的架构调度与内核未来的展望更大规模的使用千级别万级别混部GPUFPGA实时计算场景更多元规模更大更加精细化的调度与隔离从集群位到单机位从实时判断到智能预测混部更多的优先级和维度完全自动化的协调机制云上推出敏捷版本定位定位 阿里内部调度、容器、运维 领域优势技术的输出平台 兼容Kubernetes架构和标 准 提供企业级容器应用管理能 力,提高企业IT效率 混部(Co-location) 灵活的调度策略和算法 和阿里云生态无缝整合 经过双11检验Based on Kubernetes and Yarn. 优优 势势混合云架构弹性伸缩资源调度应用管理混部Co-location3rd party client or PaaSKubectlSpark在线服务PaaSACSEDAS离线计算PaaSEMRK8S APIYarn APIK8S APIYarn APISigma AgilitySigma Agility ConsoleECSEIP公有云SLB VPCBare MetalVM资源+服务+数据 编排私有云LBNetworkNASOSSPanguHDFSHadoop

    展开阅读全文
    提示  163文库所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:资源混部技术架构介绍课件.pptx
    链接地址:https://www.163wenku.com/p-2958676.html

    Copyright@ 2017-2037 Www.163WenKu.Com  网站版权所有  |  资源地图   
    IPC备案号:蜀ICP备2021032737号  | 川公网安备 51099002000191号


    侵权投诉QQ:3464097650  资料上传QQ:3464097650
       


    【声明】本站为“文档C2C交易模式”,即用户上传的文档直接卖给(下载)用户,本站只是网络空间服务平台,本站所有原创文档下载所得归上传人所有,如您发现上传作品侵犯了您的版权,请立刻联系我们并提供证据,我们将在3个工作日内予以改正。

    163文库